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内 容 拓 要 


本 书 介 绍 了 Python 应 用 在 各 个 领域 中 的 一 些 使 
用 技巧 和 方法 ， 其 主题 涵盖 了 数据 结构 和 算法 ， 字 
符 吕 和 文本 ， 数 字 、 日 期 和 时 间 ， 返 代 左 和 生成 
器 ， 文 件 和 LO， 数 据 编码 与 处 理 ， 国 数 ， 类 与 对 
象 ， 元 编程 ， 模 块 和 包 ， 网 络 和 和 Web 编程， 并 发 ， 
a me eee 
言 扩 展 等 。 








KPA m 了 Python 应 用 中 的 很 多 第 见 问题 ， 并 
提出 了 通用 的 解决 方案 。 书 中 包含 了 大 量 实用 的 编 
程 技 巧 和 示例 代码 ， 并 在 Python 3.3 环 境 下 进行 了 
测试 ， 可 以 很 方便 地 应 用 到 实际 项 目 中 去 。 此 外 ， 
本 书 还 详细 讲解 了 解决 方案 是 如 何 工 作 的 ， 以 及 为 
什么 能 够 工作 。 














本 书 非常 适合 具有 一 定编 程 基础 的 Python 程序 
AMEE. 





O’Reilly Media, Inc. 介绍 


O’Reilly Mediz HI AB. ARB. ERRI 
调查 研究 和 会 议 等 方式 传播 创新 知识 。 目 1978 EF 
始 ，O'Reilly 一 直 都 是 前 沿 发 展 的 见证 者 和 推动 
者 。 超 级 极 客 们 正在 开创 着 未 来 ， 而 我 们 关注 真正 
重要 的 技术 趋势 一 通过 放大 那些 “细微 的 信号 ?来 刺 
激 社会 对 新 科技 的 应 用 。 作 为 技术 社区 中 活跃 的 参 
与 者 ，O’Reilly 的 发 展 充 满 了 对 创新 的 倡导 、 创 造 
和 发 扬 光 大 。 


O:Reilly 为 软件 开发 人 员 带 来 革命 性 的 “动物 
书 ”， 创 建 第 一 个 商业 网 站 CGNN) ; 组 织 了 影响 
深远 的 开放 源 代 码 峰 会 ， 以 至 于 开源 软件 运动 以 此 
命名 ; 创立 了 Make 杂 志 ， 从 而 成 为 DIY 革 人命 的 主要 
先锋 ;公司 一 如 既往 地 通过 多 种 形式 缔结 信息 与 人 
的 纽带 。O’Reilly 的 会 议和 峰会 集聚 了 众多 超级 极 
客 和 高 瞻 远 瞩 的 商业 领袖 ， 共 同 摘 绘 出 开创 新 产业 
的 革命 性 思想 。 作 为 撤 术 人 士 获取 信息 的 选择 ， 
O'Reilly 现 在 还 将 先锋 专家 的 知识 传递 给 普通 的 计 
算 机 用 户 。 无 论 是 通过 书籍 出 版 ， 在 线 服务 或 者 面 
授课 程 ， 每 一 项 O'Reilly 的 产品 都 反映 了 公司 不 可 
动摇 的 理念 言 息 是 激发 创新 的 力量 。 


业界 评论 








“O’Reilly Radar Ñ x O Et. ” 


— Wired 





“O’Reilly 凭借 一 系列 (真希 望 当初 我 也 想到 
J) 非凡 想法 建立 了 数 百 万 美元 的 业务 。” 








Business 2.0 





“O’Reilly Conference 是 聚集 关键 思想 领袖 的 绝 
对 典范 。” 
一 CRN 


“一 本 O?Reilly 的 书 就 代表 一 个 有 用 、 有 前 途 、 


需要 学 习 的 主题 。” 
Irish Times 


“Tim 是 位 特 立 独行 的 两 人 ， 他 不 光 放 眼 于 最 长 
远 、 最 广阔 的 视野 并 且 切 实地 按照 Yogi Berra 的 建 
议 去 做 了 : “如 果 你 在 路 上 遇 到 岔路 口 ， 走 小 路 
(AK) 。 :回顾 过 去 Tim 人 似乎 每 一 次 都 选择 了 小 
路 ， 而 且 有 几 次 都 是 一 内 即 逝 的 机 会 ， 尽 管 大 路 也 
NG.” 





Linux Journal 





关于 作者 


David Beazley 是 一 位 居住 在 芝加哥 的 独立 软 
件 开 发 者 以 及 图 书 作 者 。 他 主要 的 工作 在 于 编程 工 
上 其， 提供 定制 化 的 软件 开发 服务 ， 以 及 为 软件 开 友 
者 、 科 学 家 和 工程 师 教授 编程 实践 课程 。 他 最 为 人 
熟知 的 工作 在 于 Python 编程 语言 ， 他 已 为 此 创建 了 
好 几 个 开源 的 软件 包 ( 例 如 Swig 和 PLY)〉 ， 并 且 是 
备 受 赞誉 的 图 书 Python Essential Reference 的 作者 。 
他 也 对 C、C++ 以 及 汇编 语言 下 的 系统 编程 有 着 丰 


让 的 经 验 。 


Brain K. Jones 是 普林斯顿 大 学 计算 机 系 的 一 
位 系统 管理 员 。 
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目 2008 年 以 来 ， 我 们 已 经 目睹 了 整个 Python 世 
TERE Python 3 进化 的 事实 。 众 所 周知 ， 完 
全 接纳 Python 3 要 花 很 长 的 时 间 。 事 实 上 ， 束 在 写 
作 本 书 时 《〈2013 年 ) ， 大 多 数 Python 程 序 员 仍然 坚 
持 在 生产 环境 中 使 用 Python 2。 关 于 Python 3 不 能 所 
后 兼容 的 事实 也 已 经 做 了 许多 努力 来 补救 。 的 确 ， 
问 后 莱 容 性 对 于 任何 已 经 存在 的 代码 库 来 说 是 个 问 
题 。 但 是 ， 如 果 你 着 眼 于 未 来 ， 你 会 发 现 Python 3 
带 来 的 好 处 绝 非 那么 简单 。 


正 因 为 Python 3 是 着 眼 于 未 来 的 ， 本 书 在 之 前 
的 版 本 上 做 了 很 大 程度 的 修改 。 首 先 也 是 最 重要 的 
一 点 ， 这 是 一 本 积极 拥抱 Python 3 的 书 。 所 有 的 章 
让 都 采用 Python 3.3 来 编写 并 进行 了 验证 ， 没 有 考 
虑 老 的 Python 版 本 或 者 “老式 ”的 实现 方式 。 事 实 
上 ， 许 多 章节 都 只 适用 于 Python 3.3 甚 至 更 高 的 版 
本 。 这 么 做 可 能 会 有 风险 ， 但 是 最 终 的 目的 是 要 入 
写 一 本 Python 3 的 秘籍 ， 尺 可 能 基于 最 先进 的 工具 
和 惯用 法 。 我 们 希望 本 书 可 以 指导 人 们 用 Python 3 
编写 新 的 代码 ， 或 者 帮助 开发 人 员 将 已 有 的 代码 升 
级 到 Python 3。 


无 需 痪 言 ， 以 这 种 风格 来 编写 本 书 给 编辑 工作 


























带 来 了 一 定 的 挑战 。 只 要 在 网 络 上 搜索 一 下 Python 
秘籍 ， 立 刻 就 能 在 ActiveState 的 Python 版 块 或 者 
Stack Overflow 这 样 的 站 点 上 找到 数 以 干 计 的 使 用 
心得 和 秘籍 。 但 是 ， 大 部 分 这 类 资源 已 经 沉浸 在 历 
史 和 过 去 中 了 。 由 于 这 些 心得 和 秘籍 几乎 完全 是 针 
对 Python 2 所 写 的 ， 其 中 常常 包含 有 各 种 针对 
Python 不 同 版 本 〈 例 如 2.3 版 对 比 2.4 版 ) 之 间 差 异 
的 变通 方法 和 技巧 。 此 外 ， 这 些 网 上 资源 常 沼 使 用 
过 时 的 技术 ， 而 这 些 技术 现在 成 了 Python 3.3 的 内 
建功 能 。 想 寻找 专门 针对 Python 3 的 资源 会 比较 困 
难 。 


本 书 并 非 搜 寻 特 定 于 Python 3 方面 的 秘籍 将 其 
汇集 而 成 ， 本 书 的 主题 都 是 在 创作 中 由 现 有 的 代码 
和 技术 而 产生 出 的 灵感 。 我 们 将 这 些 思 想 作为 跳 
板 ， 尽 可 能 采用 最 现代 化 的 Python 编程 技术 来 写 
作 ， 因 此 本 书 的 内 容 完全 是 原创 性 的 。 对 于 任何 希 
望 以 现代 化 的 风格 来 编写 代码 的 人 ， 本 书 都 可 以 作 
为 参考 于 册 。 


在 选择 应 该 包含 哪些 章节 时 ， 我 们 有 一 个 共 
识 。 那 融 是 根本 不 可 能 编写 一 本 涵 震 了 每 种 Python 
用 途 的 书 。 因 此 ， 我 们 在 主题 上 优先 考虑 Python 语 
本 核 心 方面 的 内 容 ， 以 及 能 够 广泛 适用 于 各 种 应 用 
领域 的 第 见 任务 。 此 外 ， 有 许多 秘籍 是 用 来 说 明 在 
Python 3 中 新 增 的 功能 ， 这 对 许多 人 来 说 比较 陌 












































生 ， 其 至 对 于 那些 使 用 老 版 Python 经 验 丰 宇 的 程序 
员 也 是 如 此 。 我 们 也 会 优先 选择 普遍 适用 的 编程 技 
术 〔 即 ， 编 程 模 式 ) 作为 主题 ， 而 不 会 选择 那些 试 
图 解雇 一 个 非常 具体 的 实际 问题 但 适用 范围 太 罕 的 
内 容 。 尺 管 在 部 分 半 市 中 也 提 到 了 特定 的 第 三 方 软 
ba 
EE. 


本 书 适合 谁 


本 书 的 目标 读者 是 希望 加 深 对 Python 语 言 的 理 
解 以 及 学 习 现 代 化 编程 惯用 法 的 有 经 验 的 程序 员 。 
本 书 许多 内 容 把 重点 放 在 库 、 框 架 和 应 用 中 使 用 的 
高 级 技术 上 。 本 书 假设 读者 已 经 有 了 理解 本 书 主题 
的 必要 背景 知识 (例如 对 计算 机 科学 的 一 般 性 知 
识 、 数 据 结构 、 复 杂 上 度 计算 、 系 统 编程 、 并 发 、C 
语言 编程 等 ) 。 此 外 ， 本 书 中 提 到 的 秘籍 往往 只 是 
一 个 框架 ， 意 在 提供 必要 的 信息 让 读者 可 以 起 步 ， 
但 是 需要 读者 上 自己 做 更 多 的 研究 来 填补 其 中 的 细 
节 。 因 此 ， 我 们 假设 读者 知道 如 何 使 用 搜索 引擎 以 
及 优秀 的 Python 在 线 文 档 。 


有 一 些 更 加 高 级 的 章节 将 作为 读者 耐心 阅读 的 
炎 励 。 这 些 和 章节 对 于 理解 Python 底层 的 工作 原理 提 
供 了 深刻 的 见解 。 你 将 学 到 新 的 技巧 和 技术 ， 可 以 
将 这 些 知识 运用 到 目 己 的 代码 中 去 。 















































本 书 不 适合 谁 


这 不 是 一 本 用 来 给 初学 者 首次 学 习 Python 编 程 
而 使 用 的 书 。 事 实 上 ， 本 书 已 经 假设 读者 通过 
Python 教 程 或 者 入 门 书籍 了 解 了 基本 知识 。 本 书 同 
样 不 能 用 来 作为 快速 参考 手册 〈 即 ， 人 快速 得 询 特定 
模块 中 的 某 个 函数 ) 。 相 反 ， 本 书 的 目标 是 把 重点 
放 在 特定 的 编程 主题 上 ， 展 示 可 能 的 解决 方案 并 以 
此 作为 跳板 引导 读者 学 习 更 加 高 级 的 内 容 。 这 些 内 
容 你 可 能 会 在 网 上 或 者 参考 书 中 过 到 过 。 


本 书 中 的 约定 
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DOr 
ya 


提示 








这 个 图 标 用 来 强调 一 个 提示 、 建 议 或 一 般 
说 明 。 


-S 


š 
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这 个 图 标 用 来 说 明 一 个 警告 或 注意 事项 。 
在 线 代 码 示例 
本 书 中 几乎 所 有 的 代码 示例 都 可 以 


在 http://github.com/dabeaz/python-cookbook 上 找 
到 。 作 者 欢迎 读者 针对 代码 示例 提供 bug 修 正 、 改 
进 以 及 评论 。 


使 用 代码 示例 


本 书 的 目的 是 为 了 帮助 读者 完成 工作 。 一 般 而 
言 ， 你 可 以 在 你 的 程序 和 文档 中 使 用 本 书 中 的 代 
人 码 ， 而 且 也 没有 必要 取得 我 们 的 许可 。 但 是 ， 如 来 
你 要 复制 的 是 核心 代码 ， 则 需要 和 我 们 打 个 招呼 。 
例如 ， 你 可 以 在 无 需 获 取 我 们 许可 的 情况 下 ， 在 程 
序 中 使 用 本 书 中 的 多 个 代码 块 。 但 是 ， 销 售 或 分 及 
O’Reilly 图 书 中 的 代码 光盘 则 需要 取得 我 们 的 许 
可 。 通 过 引用 本 书 中 的 示例 代码 来 回答 问题 时 ， 不 
需要 事先 获得 我 们 的 许可 。 但 是 ， 如 果 你 的 产品 文 
档 中 融合 了 本 书 中 的 大 量 示例 代码 ， 则 需要 取得 我 
们 的 许可 。 


在 引用 本 书 中 的 代码 示例 时 ， 如 果 能 列 出 本 书 
的 属性 信息 是 最 好 不 过 。 一 个 属性 信息 通常 包括 书 
名 、 作 者 、 出 版 社 和 ISBN。 例 如 : Python 
Cookbook, 3rd edtion, by David Beazley and Brain 
K.Jones(O’Reilly)。 Copyright 2013 David Beazley 
and Brain Jones, 978-1-449-34037-7. 


在 使 用 书 中 的 代码 时 ， 如 果 不 确定 是 个 属 于 正 















































种 使 用 ， 或 是 售 超 出 了 我 们 的 许可 ， 请 通过 
permissions@oreilly.com 与 我 们 联系 。 


联系 方式 


如 果 你 想 束 本 书 发 表 评 论 或 有 任何 疑问 ， 冤 请 
联系 出 版 社 。 


RH: 








O’ Reilly Media Inc. 

1005 Gravenstein Highway North 
Sebastopol, CA 95472 

中 国 : 


北京 市 西城 区 西直门 商 大 街 2 号 成 饱 大厦 C 座 
8072 (100035) 


奥 莱 利 技术 咨询 《北京 ) 有 限 公司 
我 们 还 为 本 书 建立 了 一 个 网 页 ， 其 中 包含 了 勘 


误 表 、 示 例 和 其 他 额外 的 信息 。 你 可 以 通过 链接 
http://oreil.ly/python_cookbook_3e 来 访问 页 面 。 














天 于 本 书 的 技术 性 问题 或 建议 ， 请 及 邮件 到 : 
bookquestions@oreilly.com 


欢迎 登录 我 们 的 网 站 Chttp://www.oreilly.com 
) ， 、 课 程 、 会 议和 最 新 动态 


等 信息 
Facebook: http://facebook.com/oreilly 
Twitter: http://twitter.com/oreillymedia 


YouTube: http://www.youtube.com/oreillymedia 
致谢 


我 们 要 感谢 本 书 的 技术 校 审 人 员 ， 他 们 是 Jake 
Vanderplas、Robert Kern 以 及 Andrea Crotti E 
们 非常 有 用 的 评价 ， 也 要 感谢 整个 Python 社区 的 文 
持 和 或 励 。 我 们 也 要 感谢 本 书 第 2 版 的 编辑 Alex 
Martelli. Anna Ravenscroft 以 及 David Ascher。 尽 管 
本 书 的 第 3 版 是 新 创作 的 ， 但 之 前 的 版 本 为 本 书 提 
供 了 挑选 主题 以 及 所 感 兴趣 的 秘籍 的 初始 框 染 。 最 
后 也 是 最 重要 的 是 ， 我 们 要 感谢 本 书 早期 版 本 的 读 
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参加 了 我 的 课程 的 学 生 ， 正 是 你 们 最 终 促 成 了 本 书 
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Klein， 感 谢 他 们 飞 到 世界 各 地 去 教学 ， 而 让 我 可 以 
留 在 芝加哥 的 家 中 完成 本 书 的 写作 。 感 谢 来 目 
O'Reilly 的 Meghan Blanchette 以 及 Rachel 
Roumeliotis， 你 们 见证 了 本 书 的 创作 过 程 ， 当 然 也 
经 历 了 那些 无 法 预料 到 的 延期 。 最 后 也 是 最 重要 的 
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Hl ”数据 结构 和 算法 


Python 内 置 了 许多 非常 有 用 的 数据 结构 ， 比 如 
列表 Aist) 、 集 合 Cse) 以 及 字典 
(dictionary〉。 束 绝 大 部 分 情况 而 言 ， 我 们 可 以 直 
接 使 用 这 些 数据 结构 。 但 是 ， 通 第 我 们 还 需要 考虑 
比如 搜索 、 排 序 、 排 列 以 及 和 电 选 等 这 一 类 第 见 的 问 
题 。 因 此 ， 本 章 的 目的 束 是 来 讨论 常见 的 数据 结构 
和 同 数 据 有 关 的 算法 。 此 外 ， 在 collections 模 块 中 
也 包含 了 针对 各 种 数据 结构 的 解决 方案 。 











1.1 将 序列 分 解 为 单独 的 变量 


1.1.1 问题 





我 们 有 一 个 包含 N 个 元 素 的 元 组 或 序列 ， 现 在 
想 将 它 分 解 为 N 个 单独 的 变量 。 


1.1.2 解决 方案 
任何 序列 《或 可 迁 代 的 对 象 ) 都 可 以 通过 一 个 


简单 的 赋值 操作 来 分 解 为 单独 的 变量 。 唯 一 的 要 求 
是 变量 的 总 数 和 埋 构 要 与 序列 相 吻 合 。 例 如 ; 





>>> p = (4, 5) 


>>> data = [ 'ACME', 50, 91.1, (2012, 12, 21) ] 
>>> name, shares, price, date = data 

>>> name 

"ACME' 

>>> date 

(2012, 12, 21) 


>>> name, shares, price, (year, mon, day) = data 
>>> name 

"ACME ' 

>>> year 








如 果 元 素 的 数量 不 匹配 ， 将 得 到 一 个 错误 提 
示 。 例 如 : 


>>> p = (4, 5) 
>>> X, yY, Z. = p 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ValueError: need more than 2 values to unpack 
>>> 





1.1.3 讨论 





实际 上 不 仅仅 只 是 元 组 或 列表 ， 只 要 对 象 恰好 
是 可 达 代 的 ， 那 么 束 可 以 执行 分 解 操 作 。 这 包括 字 
ITE, C RAEAN FEAN: 





po 


当做 分 解 操作 时 ， 有 了 时候 可 能 想 丢 莽 条 些 特 定 
的 值 。Python 并 没有 提供 特殊 的 语法 来 实现 这 一 
扩 ， 但 是 通常 可 以 选 一 个 用 不 到 的 变量 名 ， 以 此 来 
作为 要 丢弃 的 值 的 名 称 。 例 如 : 





>>> data = [ 'ACME', 50, 91.1, (2012, 12, 21) ] 


>>> _, shares, price, _ = data 
>>> shares 

50 

>>> price 

91.1 

>>> 








但 是 请 确保 选择 的 变量 名 没有 在 其 他 地 方 用 到 


gi 


1.2 MERCIER IARI RRP oY 
解 元 系 
1.2.1 问题 

需要 从 东 个 可 迭代 对 象 中 分 解 出 N 个 元 系 ， 但 
是 这 个 可 和 迭 代 对 象 的 长 度 可 能 超过 N， 这 会 导致 出 
现 “ 分 解 的 值 过 多 (too many values to unpack) ”的 





1.2.2 ”解决 方案 


Python 的 “* 表 达 式 ”可 以 用 来 解决 这 个 问题 。 例 
如 ， 假 设 开设 了 一 门 课程 ， 并 决定 在 期 末 的 作业 成 
绩 中 去 掉 第 一 个 和 最 后 一 个 ， 只 对 中 间 剩 下 的 成 绩 
做 平均 分 统计 。 如 果 只 有 4 个 成 绩 ， 也 许可 以 简单 
地 将 4 个 都 分 解 出 来 ， 但 是 如 果 有 24 个 昵 ? * 表 达 式 
使 这 一 切 都 变 得 简单 : 








def 


drop_first_last(grades): 
first, *middle, last = grades 
return 


avg(middle) 


男 一 个 用 例 是 假设 有 一 些 用 户 记 录 ， 记 录 由 姓 
名 和 电子 邮件 地 址 组 成 ， 后 面 跟 奢 任 意 数量 的 电话 
号码 。 则 可 以 像 这 样 分 解 记录 : 


>>> record = ('Dave', 'dave@example.com', '773-555-1212', '847-5! 
>>> name, email, *phone_numbers = user_record 

>>> name 

'Dave' 

>>> email 

‘dave@example.com' 


>>> phone_numbers 
['773-555-1212', '847-555-1212' ] 





不 管 需 要 分 解 出 多 少 个 电话 号 码 《〈 甚 至 没有 电 
话 号 码 ) ， 变 量 phone_numbers 都 一 直 是 列表 ， 而 
这 是 至 无 意义 的 。 如 此 一 来 ， 对 于 任何 用 到 了 变量 
phone_numbers 的 代码 都 不 必 对 它 可 能 不 是 一 个 列 
表 的 情况 负责 ， 或 者 额外 做 任何 形式 的 类 型 检查 。 


由 * 修 饰 的 变量 也 可 以 位 于 列表 的 第 一 个 位 
罩 。 例 如 ， 比 方 说 用 一 系列 的 值 来 代表 公司 过 去 8 
个 季度 的 销售 额 。 如 果 想 对 最 近 一 个 季度 的 销售 额 
同 前 7 个 季度 的 平均 值 做 比较 ， 可 以 这 么 做 : 














*trailing_qtrs, current_qtr = sales_record 
trailing_avg = sum(trailing_qtrs) / len(trailing_gqtrs) 
return 


avg_comparison(trailing_avg, current_qtr) 


>>> *trailing, current = [10, 8, 7, 1, 9, 5, 10, 3] 


>>> current 





1.2.3 ”讨论 


XY TRER RO IE E TR BE PCT R, HH 
DREAD APR AEEA ERLA. A, X 
类 可 迭代 对 象 中 会 有 一 些 已 知 的 组 件 或 模式 〈 例 
如 ， 元 系 1 之 后 的 所 有 内 容 都 是 电话 号 码 ) ， 利 用 * 
表达 式 分 解 可 欠 代 对 象 使 得 开 及 者 能 够 轻松 利用 这 
些 模式 ， 而 不 必 在 可 迭代 对 象 中 做 复杂 人 花哨 的 操作 
才能 得 到 相关 的 元 系 。 


* 式 的 语法 在 达 代 一 个 变 长 的 元 组 序列 时 尤其 























有 用 。 例 如 ， 假 设 有 一 个 带 标记 的 元 组 序列 : 





records = [ 
('foo', 1, 2), 
('bar', 'hello'), 
('foo', 3, 4), 


def 


do_foo(x, y): 
print 


('foo', x, y) 


def 


do_bar(s): 
print 


('bar', s) 


for 


tag, *args in 


records: 
if 
tag == 'foo': 
do_foo(*args) 
elif 
tag == 'bar': 


do_bar(*args) 


| 


当 和 某 些 特 定 的 字符 串 处 理 操 作 相 结 合 ， 比 如 
做 拆 分 Csplitting) 操作 时 ， 这 种 * 式 的 语法 所 支持 
的 分 解 操作 也 非常 有 用 。 例 如 : 





>>> line = 'nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin 
>>> uname, *fields, homedir, sh = line.split(':') 

>>> uname 

"nobody' 

>>> homedir 

'/var/empty' 


>>> sh 
'/usr/bin/false' 
>>> 





有 时 候 可 能 想 分 解 出 某 些 值 然后 丢弃 它们 。 在 
分 解 的 时 候 ， 不 能 只 是 指定 一 个 单独 的 *， 但 是 可 
以 使 用 几 个 帝 用 来 表示 行 丢 茎 值 的 变量 名 ， 比 如 _ 
或 者 ign (ignored) 。 例 如 : 











>>> record = ('ACME', 50, 123.45, (12, 18, 2012)) 
_, (*_, year) = record 





* 分 解 操 作 和 各 种 函数 式 语言 中 的 列表 处 理 功 
能 有 看 一 定 的 相似 性 。 例 如 ， 如 果 有 一 个 列表 ， 可 
以 像 下 面 这 样 轻 松 将 其 分 解 为 头 部 和 尾部 ; 


>>> items = [1, 10, 7, 4, 5, 9] 
>>> head, *tail = items 

>>> head 

1 





>>> tail 


[10, 7, 4, 5, 9] 
>>> 





在 编写 执行 这 类 拆 分 功能 的 函数 时 ， 人 们 可 以 
假设 这 是 为 了 实现 东 种 精巧 的 递归 算法 。 例 如 ; 








>>> def 


sum(items): 


head, *tail = items 
va return 


head + sum(tail) if 
tail else 


head 


>>> sum(items) 
36 


>>> 








但 是 请 注意 ， 递 归真 的 不 算是 Python 的 强项 ， 


这 是 因为 其 内 在 的 递归 限制 所 致 。 因 此 ， 最 后 一 个 
例子 在 实践 中 没 太 大 的 意义 ， 只 不 过 是 一 点 学 术 上 
HEPAT AS So 





1.3 ”保存 最 后 N 个 元 素 
1.3.1 问题 


我 们 希望 在 迭代 或 是 其 他 形式 的 处 理 过 程 中 对 
最 后 几 项 记录 做 一 个 有 限 的 历史 记录 统计 。 





1.3.2 ”解决 方案 


保存 有 限 的 历史 记录 可 算是 collections.deque 的 
完美 应 用 场景 了 。 例 如 ， 下 面 的 代码 对 一 系列 文本 
行 做 简单 的 文本 匹配 操作 ， 当 发 现 有 匹配 时 就 输出 
当前 的 匹配 行 以 及 最 后 检查 过 的 N 行 文本 。 




















from collections import deque 


def search(lines, pattern, history=5): 
previous_lines = deque(maxlen=history ) 
for line in lines: 
if pattern in line: 
yield line, previous_lines 
previous_lines.append(line) 


# Example use on a file 


if _ name__ == '__main_': 
with open('somefile.txt') as f: 
for line, prevlines in search(f, 'python', 5): 
for pline in prevlines: 
print(pline, end='') 


print(line, end='') 
print('-'*20) 





13.3 ”讨论 


如 同上 面 的 代码 请 段 中 所 做 的 一 样 ， 当 编写 搜 
索 攻 项 记录 的 代码 时 ， 通 第 会 用 到 含有 yield 关 键 字 
的 生成 如 函 数 。 这 将 处 理 搜 索 过 程 的 代码 和 使 用 搜 
索 结 果 的 代码 成 功 解 厢 开 来 。 如 来 对 生成 费 还 不 误 


a, we W434. 





deque(maxlen=N) 创 建 了 一 个 固定 长 度 的 队 
列 。 当 有 新 记录 加 入 而 队列 已 满 时 会 目 动 移 除 最 老 
的 那 条 记录 。 例 如 : 





>>> q = deque(maxlen=3) 
>>> q.append(1) 

>>> q.append(2) 

>>> q.append(3) 

>>> 

deque([1, 2, 3], maxlen=3) 
>>> q.append(4) 


>>> 


deque([2, 3, 4], maxlen=3) 
>>> q.append(5) 

>>> 

deque([3, 4, 5], maxlen=3) 








尽管 可 以 在 列表 上 手动 完成 这 样 的 操作 
Cappend, del) ， 但 队列 这 种 解决 方案 要 优雅 得 
多 ， 运 行 速度 也 快 得 多 。 


普 届 的 是 ， 当 需要 一 个 简单 的 队列 结构 时 ， 
deque 可 视 你 一 辟 之 力 。 如 果 不 指 定 队 列 的 大 小 ， 
也 就 得 到 了 一 个 无 界限 的 队列 ， 可 以 在 两 端 执行 添 
加 和 弹出 操作 ， 例 如 : 





>>> q = deque() 

>>> q.append(1) 

>>> q.append(2) 

>>> q.append(3) 

>>> 

deque([1, 2, 3 

>>> q.appendleft(4) 
>>> 

deque([4, 1, 2, 3]) 


>>> q.pop() 
3 


>>> q 
deque([4, 1, 2]) 
>>> q.popleft() 
4 








SABA FPA im HOS TT BC SETH TG RR AY 3S 8 RE AB 
O(1)。 这 和 列表 不 同 ， 当 从 列表 的 头 部 插入 或 移 除 
元 素 时 ， 列 表 的 复杂 度 为 OOIN)。 


1.4 找到 最 大 或 最 小 的 N 个 元 系 


1.4.1 问题 





我 们 想 在 条 个 集合 中 找 出 最 大 或 最 小 的 N 个 元 


1.4.2 解决 方案 


heapq 模 块 中 有 两 个 函数 一 一 nlargest() 和 
nsmallest() 它们 正 是 我 们 所 需要 的 。 例 如 : 








import heapd 


nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] 
print(heapq.nlargest(3, nums)) # Prints [42, 37, 23] 


print(heapq.nsmallest(3, nums)) # Prints [-4, 1, 2] 





这 两 个 函数 部 可 以 接受 一 个 参数 key， 从 而 允 
许 它 们 工作 在 更 加 复杂 的 数据 结构 之 上 。 例 如 : 





portfolio = 
‘name': 'IBM', 'shares': 100, 'price': 91.1}, 
‘name': 'AAPL', 'shares': 50, 'price': 543.22}, 
‘name': 'FB', 'shares': 200, 'price': 21.09}, 
‘name': 'HPQ', 'shares': 35, 'price': 31.75}, 
‘name': 'YHOO', 'shares': 45, 'price': 16.35}, 
‘name': 'ACME', 'shares': 75, 'price': 115.65} 


] 


cheap = heapq.nsmallest(3, portfolio, key=lambda 


s: s['price']) 
expensive = heapq.nlargest(3, portfolio, key=lambda 


s: s['price']) 





1.4.3 ”讨论 


如 果 正 在 寻找 最 大 或 最 小 的 N 个 元 素 ， 且 同 集 
合 中 元 素 的 总 数目 相 比 ，N 很 小 ， 那 么 下 面 这 些 函 
数 可 以 提供 更 好 的 性 能 。 这 些 函 数 首先 会 在 底层 将 
且 元 素 会 以 堆 的 顺序 排列 。 例 
j: 




















>>> nums = [1, 8, 2, 23, 7, -4, 18, 23, 42, 37, 2] 
>>> import heapq 


>>> heap = list(nums) 

>>> heapq.heapify(heap) 

>>> heap 

[-4, 2, 1, 23, 7, 2, 18, 23, 42, 37, 8] 


>>> 


堆 最 重要 的 特性 就 是 heap[0] 总 是 最 小 那个 的 元 
系 。 此 外 ， 接 下 来 的 元 系 可 依次 通过 
heapq.heappop() 方 法 轻松 找到 。 该 方法 会 将 第 一 个 
TR Cav) I) 弹出 ， 然 后 以 第 二 小 的 元 素 取 而 代 
之 〈 这 个 操作 的 复杂 上 度 是 DogN)，N 代 表 堆 的 大 
小 ) 。 例 如 ， 要 找到 第 3 小 的 元 叉 ， 可 以 这 样 做 : 





>>> heapq.heappop(heap) 
4 


>>> heapq.heappop(heap ) 
1 


>>> heapq.heappop(heap ) 
2 








HAEREA BET, PRI BB 
nlargest() 和 nsmallest() 才 是 最 适用 的 。 如 果 只 是 简单 
地 想 找 到 最 小 或 最 大 的 元 素 CN=1 时 ) ， 那 么 用 
min0 和 max0 会 更 加 快 。 同 样 ， 如 果 N 和 集合 本 号 
的 大 小 差不多 大 ， 通 第 更 快 的 方法 是 先 对 集合 排 
序 ， 然 后 做 切片 操作 《〈 例 如， 使 用 sorted(items)[:N] 
或 者 sorted(items)[-N:]) 。 应 该 要 注意 的 是 ， 
nlargest() 和 和 nsmallest() 的 实际 实现 会 根据 使 用 它们 的 
方式 而 有 所 不 同 ， 可 能 会 相应 作出 一 些 优 化 措施 
(比如 ， 当 N 的 大 小 同 输入 大 小 很 接近 时 ， 就 会 采 














用 排序 的 方法 ) 。 


使 用 本 节 的 代码 片段 并 不 需要 知道 如 何 实现 堆 
数据 结构 ， 但 这 仍然 是 一 个 有 趣 也 是 值得 去 学 习 的 
主题 。 通 向 在 优秀 的 算法 和 数据 结构 相关 的 书籍 里 
都 能 找到 堆 数 据 结 构 的 实现 方法 。 在 heapq 模 块 的 
文档 中 也 讨论 了 底层 实现 的 细节 。 




















1.5 实现 优先 级 队列 
1.5.1 问题 


我 们 想 要 实现 一 个 队列 ， 它 能 够 以 给 定 的 优先 
级 来 对 元 系 排序 ， 且 每 次 pop 操 作 时 都 会 返回 优先 
级 最 局 的 那个 元 素 。 


15.2 ”解决 方案 


下 和 面 的 类 利用 heapq 模 块 实现 了 一 个 简单 的 优 
先 级 队列 : 


import heapd 
class PriorityQueue : 


def _ init__(self): 
self._queue = [] 
self. index = 0 


def push(self, item, priority): 


heapgq.heappush(self. queue, (-priority, self. _index, item) ) 
self. index += 1 


def pop(self): 
return heapq.heappop(self. queue) [-1] 








下 面 是 如 何 使 用 这 个 类 的 例子 : 


>>> class Item: 
‘ def _ init__(self, name): 
self.name = name 
def _ repr_ (self): 
return ‘Item({!r})'.format(self.name) 


>>> q = PriorityQueue( ) 


>>> q.push(Item('foo'), 1) 
>>> q.push(Item('bar'), 5) 
>>> q.push(Item('spam'), 4) 
>>> q.push(Item('grok'), 1) 


Item('foo') 
>>> q.pop() 
Item('grok' ) 
>>> 





请 注意 观察 ， 第 一 次 执行 popO 操 作 时 返回 的 元 
系 具 有 最 高 的 优先 级 。 我 们 也 观察 到 拥有 相同 优先 
级 的 两 个 元 素 〈foo 和 grok) 返回 的 顺序 同 它们 插入 
到 队列 时 的 顺序 相同 。 











1.5.3 ”讨论 


上 面 的 代码 片段 的 核心 在 于 heapq 模 块 的 使 
用 。 函 数 heapq.heappush() 以 及 heapg.heappop() 分 别 
实现 将 元 素 从 列表 _queue 中 插入 和 移 除 ， 且 保证 列 
表 中 第 一 个 元 素 的 优先 级 最 低 《〈 如 1.4 所 述 ) 。 
heappop0 方 法 尽 是 返回 “最 小 ”的 元 素 ， 因 此 这 就 是 





让 队列 能 弹出 正确 元 素 的 关键 。 此 外 ， 由 于 push 和 
pop 操 作 的 复杂 度 都 是 OogN)， 其 中 N 代 表 堆 中 元 
系 的 数量 ， 因 此 残 算 N 的 值 很 大 ， 这 些 操作 的 效率 
也 非常 高 。 


在 这 段 代码 中 ， 队 列 以 元 组 (-priority, index, 
item) 的 形式 组 成 。 把 priority 取 负 值 是 为 了 让 队列 能 
够 按 元 取 的 优先 级 从 高 到 低 的 顺序 排列 。 这 和 正常 
的 堆 排列 顺序 相反 ， 一 般 情 况 下 堆 是 按 从 小 到 大 的 
顺序 排序 的 。 


变量 index 的 作用 是 为 了 将 具有 相同 优先 级 的 元 
素 以 适当 的 顺序 排列 。 通 过 维护 一 个 不 断 递 增 的 过 
引 ， 元 素 将 以 它们 入 队列 时 的 顺序 来 排列 。 但 是 ， 
index 在 对 具有 相同 优先 级 的 元 系 间 做 比较 操作 时 同 
样 扮 湛 了 重要 的 角色 。 


为 了 说 明 Item 实 例 是 没 法 进行 次 序 比 较 的 ， 我 
们 来 看 下 面 这 个 例子 : 


>>> a = Item('foo') 

>>> b = Item('bar') 

>>> a < b 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

















TypeError: unorderable types: Item() < Item() 
>>> 








如 果 以 元 组 (priority, item) 的 形式 来 表示 元 率 ， 
那么 只 要 优先 级 不 同 ， 它 们 就 可 以 进行 比较 。 但 
是 ， 如 末 两 个 元 组 的 优先 级 值 相同 ， 做 比较 操作 时 
还 是 会 像 之 前 那样 失败 。 例 如 : 





(1, Item('foo')) 
(5, Item('bar')) 
b 


< 


= (1, Item('grok')) 
>>> a < C 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: unorderable types: Item() < Item() 
>>> 





通过 引入 额外 的 索引 值 ， 以 (prioroty, index, 
item) 的 方式 建立 元 组 ， 束 可 以 完全 避免 这 个 问题 。 
因为 没有 哪 两 个 元 组 会 有 相同 的 index 值 (一 旦 比较 
操作 的 结果 可 以 确定 ，Python 就 不 会 再 去 比较 剩 下 
的 元 组 元 素 了 ) : 
(1, ©, Item('foo')) 


(5, 1, Item('bar')) 
(1, 2, Item('grok')) 

















如 果 想 将 这 个 队列 用 于 线程 间 通 信 ， 还 需要 增 
加 适当 的 锁 和 信号 机 制 。 请 参见 12.3 节 的 示例 学 习 
如 何 去 做 。 


关于 堆 的 理论 和 实现 在 heapq 模 块 的 文档 中 有 
看 详细 的 示例 和 相关 讨论 。 


16 ”在 字典 中 将 键 映 射 到 多 个 值 上 
1.6.1 问题 


我 们 想 要 一 个 能 将 键 Chey) 映射 到 多 个 值 的 
字典 《“ 即 所 谓 的 一 键 多 值 字典 [multidictj) 。 


1.6.2 ”解决 方案 


字典 是 一 种 关联 容 左 ， 每 个 键 和 都 映射 到 一 个 单 
独 的 值 上 。 如 宋 想 让 键 映 射 到 多 个 值 ， 需 要 将 这 多 
个 值 保 存 到 为 一 个 容 右 如 列表 或 集合 中 。 例 如 ， 可 
能 会 像 这 样 创建 字典 : 








要 使 用 列表 还 是 集合 完全 取决 于 应 用 的 意图 。 
如 宋 布 望 保留 元 系 插 入 的 顺序 ， 就 用 列表 。 如 末 硕 





望 消除 重复 元 系 〈 且 不 在 童 它们 的 顺序 ) ， 就 用 集 





为 了 能 方便 地 创建 这 样 的 字典 ， 可 以 利用 
collections 模 块 中 的 defaultdict 类 。defaultdict 的 一 个 
和 尾 点 就 是 它 会 目 动 切 始 化 第 一 个 值 ， 这 样 只 需 关 注 
添加 元 素 即 可 。 例 如 : 





from collections import defaultdict 


d = defaultdict(list) 
d['a'].append(1) 
d['a'].append(2) 
d['b'].append(4) 


d = defaultdict(set) 


d['b'].add(4) 








天 于 defaultdict， 需 要 注意 的 一 个 地 方 是 ， 它 
会 目 动 创建 字典 表 项 以 待 稍 后 的 访问 (即使 这 些 表 
项 当前 在 字典 中 还 没有 找到 ) 。 如 果 不 想 要 这 个 功 
7 ， 可 以 在 普通 的 字典 上 调用 setdefaultO 方 法 来 取 
Ro PMU: 














d = {} # A regular dictionary 

d.setdefault('a', []).append(1) 
d.setdefault('a', []).append(2) 
d.setdefault('b', []).append(4) 


[L ú 


然而 ， 许 多 程序 员 锅 得 使 用 setdefault() 有 点 个 
日 然 一 一 更 别提 每 次 调用 它 时 都 会 创建 一 个 初始 值 
的 新 实例 了 【例子 中 的 空 列表 [])。 





1.6.3 ”讨论 





原则 上 ， 构 建 一 个 一 键 多 值 字 和 典 是 很 容易 的 。 
但 是 如 宋 试 者 目 己 对 第 一 个 值 做 初始 化 操作 ， 这 束 
会 变 得 很 杂乱 。 例 如 ， 可 能 会 写 下 这 样 的 代码 : 








key, value in 


pairs: 
i 


key not in 


d: 
d[key] = [] 
d[ key] .append(value) 








使 用 defaultdict 后 代码 会 清晰 得 多 : 


d = defaultdict(list) 
for 


key, value in 


pairs: 
d[ key] .append(value) 








JES BN) A A EA AC BE ck E A 
很 强 的 天 联 。 请 参见 1.15 节 的 示例 。 


1.7 让 字典 保持 有 序 
1.7.1 问题 


我 们 想 创建 一 个 字典 ， 同 时 当 对 字典 做 迭代 或 
序列 化 操作 时 ， 也 能 控制 其 中 元 素 的 顺序 。 





1.7.2 ”解决 方案 


要 控制 字典 中 元 素 的 顺序 ， 可 以 使 用 
collections 模 块 中 的 OrderedDict 类 。 当 对 字典 做 迭 
代 时 ， 它 会 严格 按照 元 素 初 始 添加 的 顺序 进行 。 例 
如 : 


from collections import OrderedDict 


d = OrderedDict() 


# Outputs "foo 1", "bar 2", "spam 3", "grok 4" 


for key in d: 
print(key, d[key]) 





当 想 构建 一 个 映射 结构 以 便 稍 后 对 其 做 序列 化 
或 编码 成 另 一 种 格式 时 ，OrderedDict 束 显得 特别 有 
用 。 例 如 ， 如 果 想 在 进行 JSON 编 码 时 精确 控制 各 
字段 的 顺序 ， 那 么 只 要 首先 在 OrderedDict 中 构建 数 
据 就 可 以 了 。 


>>> import json 
>>> json.dumps(d) 


'{"foo": 1, "bar": 2, "spam": 3, "grok": 4}' 
>>> 





1.7.3 ”讨论 


OrderedDict 内 部 维护 了 一 个 双 回 链表 ， 它 会 根 
据 元 素 加 入 的 顺序 来 排列 键 的 位 置 。 第 一 个 新 加 入 
的 元 辫 被 放置 在 链表 的 末尾 。 接 下 来 对 已 存在 的 键 
做 重新 赋值 不 会 改变 键 的 顺序 。 


请 注意 OrderedDict 的 大 小 是 普通 字典 的 2 倍 
多 ， 这 是 由 于 它 额 外 创建 的 链表 所 致 。 因 此 ， 如 果 
打算 构建 一 个 涉及 大 量 OrderedDict 实 例 的 数据 结构 
(例如 从 CSV 文 件 中 读 取 100000 行 内 容 到 
OrderedDict 列 表 中 ) ， 那 么 需要 认真 对 应 用 做 需求 
分 析 ， 从 而 判断 使 用 OrderedDict 所 带 来 的 好 处 是 否 
能 超越 因 额 外 的 内 存 开 销 所 带 来 的 缺点 。 








18 与 字典 有 天 的 计算 问题 
1.8.1 问题 


我 们 想 在 字典 上 对 数据 执行 各 式 各 样 的 计算 
《比如 求 最 小 值 、 最 大 值 、 排 序 等 ) 。 


1.8.2 ”解决 方案 


假设 有 一 个 字典 在 股票 名 称 和 对 应 的 价格 间 做 
了 映射 : 


prices = { 
': 45.23, 
': 612.78, 
': 205.55, 





为 了 能 对 字典 内 容 做 些 有 用 的 计算 ， 通 第 会 利 
用 zip0 将 字典 的 键 和 值 反 转 过 来 。 例 如 ， 下 面 的 代 
人 码 会 告诉 我 们 如 何 找 出 价格 最 低 和 最 高 的 股票 。 





min_price = min(zip(prices.values(), prices.keys())) 
# min_price is (10.75, 'FB') 


max_price = max(zip(prices.values(), prices.keys())) 
# max_price is (612.78, 'AAPL') 





同样 ， 要 对 数据 排序 只 要 使 用 zip0O 再 配合 
sorted() 束 可 以 了 ， 比 如 : 


prices_sorted = sorted(zip(prices.values(), prices.keys())) 
# prices_sorted is [(10.75, 'FB'), (37.2, 'HPQ'), 


(45.23, 'ACME'), (205.55, 'IBM'), 


(612.78, 'AAPL')] 





HAITA IN, THER zip( GE SK 
Nas, CHIARA BEBE BK. POO BRANES 
whe ta RY: 


prices_and_names = zip(prices.values(), prices.keys()) 
print 


(min(prices_and_names) ) # OK 


print 


(max(prices_and_names) ) # ValueError: max() arg is an empty s 





1.8.3 ”讨论 


BOR SSE ERIT E LEN BOER TE, Ras 
发 现 它们 只 会 处 理 键 ， 而 不 是 值 。 例 如 : 


min(prices) # Returns 'AAPL' 
max(prices) # Returns 'IBM' 





这 很 可 能 不 是 我 们 所 期 望 的 ， 因 为 实际 上 我 们 
是 尝试 对 字典 的 值 做 计算 。 可 以 利用 字典 的 values() 
方法 来 解决 这 个 问题 : 








min(prices.values()) # Returns 10.75 


max(prices.values()) # Returns 612.78 


不 竺 的 是 ， 通 第 这 也 不 是 我 们 所 期 望 的 。 比 
如 ， 我 们 可 能 想 知道 相应 的 键 所 关联 的 信息 是 什么 
〈 例 如 哪 文 股票 的 价格 最 低 ? ) 


如 果 提 供 一 个 key 参 数 传递 给 min() 和 max()， 就 
能 得 到 最 大 值 和 最 小 值 所 对 应 的 键 是 什么 。 例 如 : 














min(prices, key=lambda 


k: prices[k]) # Returns 'FB' 


max(prices, key=lambda 


k: prices[k]) # Returns 'AAPL' 








但 是 ， 要 得 到 最 小 值 的 话 ， 还 需要 额外 执行 一 
KEFR. Pun: 


min_value = prices[min(prices, key=lambda 


k: prices[k])] 


利用 了 zip0 的 解决 方案 是 通过 将 字典 的 键 - 值 
对 “有 反 转 ”为 值 - 键 对 序列 来 解决 这 个 问题 的 。 


当 在 这 样 的 元 组 上 执行 比较 操作 时 ， 值 会 先进 
行 比 较 ， 然 后 才 是 键 。 这 完全 符合 我 们 的 期 望 ， 允 
许 我 们 用 一 条 单独 的 语句 轻松 的 对 字典 里 的 内 容 做 
整理 和 排序 。 


应 该 要 注意 的 是 ， 当 涉及 (value, key) 对 的 比 
较 时 ， 如 果 伴 巧 有 多 个 条 目 拥 有 相同 的 value 值 ， 那 
么 此 时 key 将 用 来 作为 判定 结果 的 依据 。 例 如 ， 在 
计算 min() 和 max0O 时 ， 如 有 果 人 磁 巧 value 的 值 相同 ， 则 
将 返回 拥有 最 小 或 最 大 key 值 的 那个 条 目 。 示 例如 
下 : 








>>> prices = { 'AAA' : 45.23, 'ZZZ': 45.23 
>>> min(zip(prices.values(), prices.keys())) 


(45.23, 'AAA') 

>>> max(zip(prices.values(), prices.keys())) 
(45.23, 'ZZZ') 

>>> 





1.9 在 两 个 字典 中 寻找 相同 点 
1.9.1 问题 


有 两 个 人 字典， 我们 想 找 出 它们 中 间 可 能 相同 的 
地 方 “ 相 同 的 键 、 相 同 的 值 等 ) 。 


1.9.2 解决 方案 
考虑 如 下 两 个 字典 : 








要 找 出 这 两 个 字典 中 的 相同 之 处 ， 只 需 通过 
keys0] 或 者 items() 方 法 执行 常见 的 集合 操作 即 可 。 
例如 : 


# Find keys in common 


a.keys() & b.keys() # { 'x', 'y' } 


# Find keys in a that are not in b 
a.keys() - b.keys() # { 'z' } 


# Find (key,value) pairs in common 
a.items() & b.items() # { ('y', 2) } 





这 些 类 型 的 操作 也 可 用 来 修改 或 过 滤 挥 字典 中 
的 内 容 。 例 如 ， 假 设想 创建 一 个 新 的 字典 ， 其 中 会 
-~ 下 面 是 使 用 了 字典 推导 式 的 代码 示 
Fi: 


# Make a new dictionary with certain keys removed 
c = {key:a[key] for 








key in 


a.keys() - {'Z', 'w a 
# c is {'x': 1, 'y': 2} 





1.9.3 ”讨论 


字典 就 是 一 系列 键 和 值 之 间 的 映射 集合 。 字 典 
的 keys(0) 方 法 会 返回 keys-view 对 象 ， 其 中 暴露 了 所 
有 的 键 。 关 于 字典 的 键 有 一 个 很 少 有 人 知道 的 特 
性 ， 那 就 是 它们 也 支持 常见 的 集合 操作 ， 比 如 求 并 











集 、 交 集 和 差 集 。 因 此 ， 如 果 需 要 对 字典 的 键 做 党 
见 的 集合 操作 ， 那 么 就 能 直接 使 用 keys-view 对 象 而 
不 必 先 将 它们 转化 为 集合 。 


字典 的 items() 方 法 返回 由 (key,value) 对 组 成 的 
items-view 对 象 。 这 个 对 象 文 持 类 似 的 集合 操作 ， 
可 用 出 两 个 字典 间 有 哪些 键 值 对 有 相同 之 
处 的 操作 。 


尽管 类 似 ， 但 字典 的 values() 方 法 并 不 支持 集合 
操作 。 部 分 原因 是 因为 在 字典 中 键 和 值 是 不 同 的 ， 
从 值 的 角度 来 看 并 不 能 保证 所 有 的 值 都 是 唯一 的 。 
单 这 一 条 原因 就 使 得 某 些 特定 的 集合 操作 是 有 问题 
的 。 但 是 ， 如 果 必 须 执 行 这 样 的 操作 ， 还 是 可 以 先 
将 值 转化 为 集合 来 实现 。 





























1.10 ”从 序列 中 移 除 重复 项 且 保 持 
元 素 间 顺序 不 弯 


1.10.1 问题 











我 们 想 去 除 序列 中 出 现 的 重复 元 素 ， 但 仍然 保 
持 剩 下 的 元 素 顺 序 不 变 。 


1.10.2 解决 方案 
如 果 序 列 中 的 值 是 可 哈 希 (hashable〉 的， 那 


么 这 个 问题 可 以 通过 使 用 集合 和 生成 器 轻松 解决 。 
aan F H ; 











def 


dedupe(items): 
seen = set() 
for 


item in 


items: 
if 


item not in 


seen: 
yield 


item 


seen.add(item) 





这 里 是 如 何 使 用 这 个 函数 的 例子 : 


>>> a = [1, 5, 2, 1, 9, 1, 5, 10] 
>>> list(dedupe(a) ) 

[1, 5, 2, 9, 10] 

>>> 











RA SF SE TORR ce A Marais HY RAE A 
io WREED RARR EWIK) 序列 中 
ARER, mX ERRIA: 











def 


dedupe(items, key=None): 
seen = set() 
for 


item in 


items: 
val = item if 


key is 
None else 


key(item) 
if 


val not in 


seen: 
yield 


item 


seen.add(val) 








这 里 参数 key 的 作用 是 指定 一 个 函数 用 来 将 序 
列 中 的 元 素 转换 为 可 哈 希 的 闫 型 ， 这 么 做 的 目的 是 
为 了 检测 重复 项 。 它 可 以 像 这 样 工作 : 


>>> a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2 
>>> list(dedupe(a, key=lambda 


d: (d['x'],d['y']))) 
LCs Da Nye. 2) ne ae ys a A 
>>> list(dedupe(a, key=lambda 


d: d['x'])) 
Lixtea E tye ai 


>>> 





o 


如 果 和 希望 在 一 个 较 复 杂 的 数据 结构 中 ， 只 根据 
对 象 的 茶 个 字段 或 属性 来 去 除 重复 项 ， 那 么 后 一 种 
解决 方案 同样 能 完美 工作 。 








1.10.3 讨论 


如 果 想 要 做 的 只 是 去 除 重复 项 ， 那 么 通常 足够 
简单 的 办 法 束 是 构建 一 个 集合 。 例 如 : 





>>> a 
[1, 5, 2, 1, 9, 1, 5, 10] 
>>> set(a) 


{1, 2, 10, 5, 9} 
>>> 











但 是 这 种 方法 不 能 保证 元 素 间 的 顺序 不 变 加 
， 因 此 得 到 的 结果 会 被 打 乱 。 前 面 展 示 的 解决 方案 
可 避免 出 现 这 个 问题 。 


本 节 中 对 生成 器 的 使 用 反映 出 一 个 事实 ， 那 就 
是 我 们 可 能 会 希望 这 个 函数 尽 可 能 的 通用 不 必 
绑 定 在 只 能 对 列表 进行 处 理 。 比 如 ， 如 果 想 读 一 个 
文件 ， 去 除 其 中 重复 的 文本 行 ， 可 以 只 需 这 样 处 
理 : 

















with 


open(somefile,'r') as 


f: 
for 


line in 


dedupe(f): 





我 们 的 dedupe() 函 数 也 模仿 了 内 置 函 数 
sorted) min) UU max) key AŽ EHAN. 
子 可 参考 1.8 节 和 1.13 节 。 


1.11 对 切片 命名 
1.11.1 问题 


我 们 的 代码 已 经 变 得 无 法 阅读 ， 到 处 都 是 便 编 
人 码 的 切片 索引 ， 我 们 想 将 它们 清理 干净 。 


1.11.2 解决 方案 
假设 有 一 些 代 码 用 来 从 字符 串 的 固定 位 置 中 取 


出 具体 的 数据 (比如 从 一 个 平面 文件 或 类 似 的 格 
式 ) [3]， 








HHEHHH 01234567890123456789012345678901234567890123456 7890123. 
record = ' 100 513.25 ' 
cost = int(record[20:32]) * float(record[40:48] ) 





与 其 这 样 做 ， 为 什么 不 对 切片 命名 呢 ? 


SHARES = slice(20, 32) 
PRICE = slice(40, 48) 


cost = int(record[SHARES]) * float(record[PRICE] ) 





在 后 一 种 版 本 中 ， 由 于 避免 了 使 用 许多 神秘 难 
情 的 人 硬 编码 索引 ， 我 们 的 代码 束 变 得 清晰 了 许多 。 


1.11.3 讨论 


作为 一 条 基本 准则 ， 代 码 中 如 果 有 很 多 便 编 码 
的 索引 值 ， 将 导致 可 读 性 和 可 维护 性 都 不 佳 。 例 
如 ， 如 宋 一 年 以 后 再 回 过 头 来 看 代码 ， 你 会 及 现 目 
己 很 想 知 道 当 初 编写 这 些 代码 时 目 己 在 想 些 什么 。 
前 面 展示 的 方法 可 以 让 我 们 对 代码 的 功能 有 着 更 加 
消 晰 的 认识 。 


一 般 来 说 ， 内 置 的 slice(0) 函 数 会 创建 一 个 切 厂 
ee enna cerns em Rena 0 
Hs 




















>>> items = [0, 1, 2, 3, 4, 5, 6] 
>>> a = slice(2, 4) 
>>> items[2:4] 


L SOS 


如 果 有 一 个 slice 对 和 象 的 实例 s， 可 以 分 别 通 过 
s.start、s.stop 以 及 s.step 属 性 来 得 到 关于 该 对 象 的 信 
So PO: 





>>> a = slice( 
>>> a.start 
10 


>>> a.stop 
50 


>>> a.step 
2 


>>> 





此 外 ， 可 以 通过 使 用 indices(size) 方 法 将 切 H BR 
WER ERDEI E. 123k |B] —~K(start, stop, 
step) 元 组 ， 所 有 的 值 都 已 经 恰当 地 限制 在 边界 以 内 

(当做 索引 操作 时 可 避免 出 现 IndexError 异 党 )。 
例如 : 











>>> s = 'HelloWorld' 
>>> a.indices(len(s) ) 
(5, 10, 2) 

>>> for 


i in 


range(*a.indices(len(s))): 
.. print 


(s[i]) 





1.12 找 出 序列 中 出 现 识 数 最 多 的 
juz 
1.12.1 问题 


我 们 有 一 个 元 素 序列 ， 想 知道 在 序列 中 出 现 次 
数 最 多 的 元 素 是 什么 。 





1.12.2 解决 方案 


collections 模 块 中 的 Counter 类 正 是 为 此 类 问题 
所 设计 的 。 它 甚至 有 一 个 非常 方便 的 
most_common() 方 法 可 以 直接 告诉 我 们 答案 。 


为 了 说 明 用 法 ， 假 设 有 一 个 列表 ， 列 表 中 是 一 
系列 的 单词 ， 我 们 想 找 出 哪些 单词 出 现 的 最 为 频 
每 。 下 面 是 我 们 的 做 法 : 





', 'eyes', 'look', ‘into', 'my', ‘eyes', 
', ‘'eyes', 'the', 'eyes', 'not', ‘around', 


', ‘around', 'the', ‘eyes', 'look', ‘in 
', "you're", '‘under' 


from collections import 





Counter 

word_counts = Counter(words) 

top_three = word_counts.most_common(3) 
print 


(top_three) 
# Outputs [('eyes', 8), ('the', 5), ('look', 4)] 





1.12.3 讨论 


可 以 给 Counter 对 象 提供 任何 可 哈 希 的 对 象 序 列 
作为 输入 。 在 底层 实现 中 ，Counter 是 一 个 字典 ， 在 
元 素 和 它们 出 现 的 次 数 间 做 了 映射 。 例 如 : 





>>> word_counts['not'] 
1 
>>> word_counts['eyes' ] 
8 


>>> 





WREEF Bt, A m fej LB a: 


>>> morewords = ['why','‘are','you', 'not', 'looking','in', 'my', 'ey 
>>> for 


word in 





morewords: 


word_counts[word] += 1 


>>> word_counts['eyes' ] 
9 


>>> 








另 一 种 方式 是 使 用 update0 方 法 。 


>>> word_counts.update(morewords) 
>>> 





关于 Counter 对 象 有 一 个 不 为 人 知 的 特性 ， 那 就 
是 它们 可 以 轻松 地 同 各 种 数学 运算 操作 结合 起 来 使 
用 。 例 如 : 


>>> a 
>>> b 
>>> a 
Counter({'eyes': 8, 'the': 5, 'look': 4, ‘into': 3, 'my': 3, ' 

"you're": 1, "don't": 1, ‘under': 1, ‘not': 1}) 


Counter (words) 
Counter (morewords ) 


>>> b 


Counter({'eyes': 1, 'looking': 1, 'are': 1, ‘in': 1, ' 
'my': 1, 'why': 1}) 


>>> # Combine counts 





>>> c=a+b 
>>> C 


Counter({'eyes': 9, 'the': 5, 'look': 4, 'my': 4, '‘into': 


‘around': 2, "you're": 1, "don't": 1, ‘ain': 1, 
‘looking': 1, 'are': 1, ‘under': 1, 'you': 1}) 


>>> # Subtract counts 


>>> d=a-b 


Counter({'eyes': 7, 'the': 5, 'look': 4, ‘into': 3, 'my': 


"you're": 1, "don't": 1, 'under': 1}) 
>>> 


3, ‘no 
'why': 1 
2, ‘ar 
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问题 时 ，Counter 对 象 都 是 你 手边 的 得 力 工 具 。 比 起 
利用 字典 自己 手写 算法 ， 更 应 该 采用 这 种 方式 完成 





任务 。 


1.13 ”通过 公共 键 对 字典 列表 排序 
1.13.1 问题 


我 们 有 一 个 字典 列表 ， 想 根据 一 个 或 多 个 字典 
中 的 值 来 对 列表 排序 。 





1.13.2 ”解决 方案 


利用 operator 模 块 中 的 itemgetter 逊 数 对 这 类 结 
构 进 行 排序 是 非常 简单 的 。 假 设 通 过 查询 数据 库 表 
项 获取 网 站 上 的 成 员 列 表 ， 我 们 得 到 了 如 下 的 数据 
结构 : 


rows = [ 
{'fname': 'Brian', '‘lname': 'Jones', 'uid': 1003}, 
{'fname': 'David', 'lname': 'Beazley', ‘'uid': 1002}, 
{'fname': 'John', 'lname': 'Cleese', 'uid': 1001}, 


{'fname': 'Big', 'lname': 'Jones', ‘uid': 1004} 


] 











根据 所 有 的 字典 中 共有 的 字段 来 对 这 些 记录 排 
序 是 非常 简单 的 ， 示 例如 下 : 


from operator import itemgetter 


rows_by_fname = sorted(rows, key=itemgetter('fname' ' ) ) 
rows_by_uid = sorted(rows, key=itemgetter('uid')) 


print(rows_by_fname) 
print(rows_by_uid) 





以 上 代码 的 输出 为 : 


[{'fname': 'Big', ‘'uid': 1004, 'lname': 'Jones'}, 
{'fname': 'Brian', ‘uid': 1003, 'lname': 'Jones'}, 
{'fname': 'David', 'uid': 1002, 'lname': 'Beazley'}, 
{'fname': 'John', ‘uid': 1001, 'lname': 'Cleese'}] 


[{'fname': 'John', 'uid': 1001, 'Iname': 'Cleese'}, 
{'fname': 'David', 'uid': 1002, 'lname': 'Beazley'}, 
{'fname': 'Brian', ‘uid': 1003, 'lname': 'Jones'}, 
{'fname': 'Big', 'uid': 1004, 'lname': 'Jones'}] 





itemgetterO 函 数 还 可 以 接受 多 个 键 。 例 如 下 面 
这 段 代 但: 


rows_by_lfname = sorted(rows, key=itemgetter('lname', 'fname' ) ) 
print 


(rows_by_lfname ) 





这 会 产生 如 下 的 输出 : 





[{'fname': 'David', ‘uid': 1002, 'lname': 'Beazley'}, 


{'fname': 'John', 'uid': 1001, 'lname': 'Cleese'}, 
{'fname': 'Big', 'uid': 1004, 'lname': 'Jones'}, 
{'fname': 'Brian', 'uid': 1003, 'lname': 'Jones'}] 





1.13.3 ”讨论 


FEIXTBIF +H, rows fe N ZA sorted() cI 
BL, ZRBC —- SKE SS Mkey. ANAA 
该 代表 一 个 可 调用 对 象 Ccallable) ， 座 对 象 从 rows 
中 接受 一 个 单独 的 元 素 作 为 输入 并 返回 一 个 用 来 做 
排序 依据 的 值 。itemgetterO 函 数 创 建 的 束 是 这 样 一 
个 可 调用 对 象 。 


疯 数 operator.itemgetter() 接 受 的 参数 可 作为 查 
询 的 标记 ， 用 来 从 rows 的 记录 中 提取 出 所 需要 的 
值 。 它 可 以 是 字典 的 键 名 称 、 用 数字 表示 的 列表 元 
素 或 是 任何 可 以 传 给 对 象 的 ”getitem_0 〇 方法 的 
值 。 如 果 传 多 个 标记 给 itemgetter()， 那 么 它 产生 的 
可 调用 对 象 将 返回 一 个 包含 所 有 元 素 在 内 的 元 组 ， 
然后 sorted() 将 根据 对 元 组 的 排序 结果 来 排列 输出 结 
果 。 如 果 想 同时 针对 多 个 字段 做 排序 比如 例子 中 
的 姓 和 名 ) ， 那 么 这 是 非常 有 用 的 。 


有 时候 会 用 lambda 表 达 式 来 取代 itemgetter() 的 
功能 。 例 如 : 


























rows_by_fname = sorted(rows, key=lambda 


r: r['fname']) 
rows_by_lfname = sorted(rows, key=lambda 


r: (r['lname'],r['fname'])) 





这 种 解决 方案 通常 也 能 正常 工作 。 但 是 用 
itemgetter() 人 通常 会 运行 得 更 快 一 些 。 因 此 如 果 和 需要 
考虑 性 能 问题 的 话 ， 应 该 使 用 itemgetter()。 








最 后 不 要 未 了 本 节 中 所 展示 的 技术 同样 适用 于 
min0 和 max0O 这 样 的 函数 。 例 如 : 


>>> min(rows, key=itemgetter('uid' )) 

{'fname': 'John', 'lname': 'Cleese', ‘uid': 1001} 
>>> max(rows, key=itemgetter('uid' )) 

{'fname': 'Big', 'lname': 'Jones', ‘uid': 1004} 


>>> 





1.14 对 不 原生 支持 比较 操作 的 对 
象 排 序 


1.14.1 问题 


我 们 想 在 同一 个 类 的 实例 之 间 做 排序 ， 但 古 它 
们 并 不 原生 文 持 比较 操作 。 


1.14.2 解决 方案 


内 建 的 Sorted0 函 数 可 接受 一 个 用 来 传递 可 调用 
WR (callable) 的 参数 key， 而 该 可 调用 对 象 会 返 
回 竺 排序 对 象 中 的 某 些 值 ，sorted 则 利用 这 些 值 来 
比较 对 象 。 例 如 ， 如 果 应 用 中 有 一 系列 的 User 对 和 象 
实例 ， 而 我 们 想 通 过 user_ id 属性 来 对 它们 排序 ， 则 
可 以 提供 一 个 可 调用 对 象 将 User 实 例 作 为 输入 然后 
返回 user id。 示例 如 下 : 














>>> class User: 
wae def _ init__(self, user_id): 


self.user_id = user_id 
def _ repr__ (self) 
return 'User({})'.format(self.user_id) 


>>> users = [User(23), User(3), User(99)] 
>>> users 

[User(23), User(3), User(99)] 

>>> sorted(users, key=lambda u: u.user_id) 


[User(3), User(23), User(99) ] 
>>> 


除了 可 以 用 lambda 表 达 式 外 ， 男 一 种 方式 是 使 


用 operator.attrgetter()。 





>>> from operator import attrgetter 
>>> sorted(users, key=attrgetter('user_id')) 
[User(3), User(23), User(99) ] 


>>> 





1.14.3 讨论 


要 使 用 lambda 表 达 式 还 是 attrgetter0) 或 许 只 是 一 
种 个 人 豆 好 。 但 是 通常 来 说 ，attrgetter() 要 更 快 一 
些 ， 而 且 具 有 人 允许 同时 提取 多 个 字段 值 的 能 力 。 这 
和 针对 字典 的 operator.itemgetter() 的 使 用 很 类 似 
《参见 1.13 节 ) 。 例 如 ， 如 果 User 实 例 还 有 一 个 
first_nameflllast name 属性 的 话 ， 可 以 执行 如 下 的 
排序 操作 : 








by_name = sorted(users, key=attrgetter('last_name', 'first_name' 











同样 值得 一 提 的 是 ， 本 和 所 用 到 的 技术 也 适用 
于 像 min0 和 max0 这 样 的 函数 。 例 如 : 


>>> min(users, key=attrgetter('user_id') 
User (3) 
>>> max(users, key=attrgetter('user_id') 
User (99) 


>>> 





1.15 ”根据 字段 将 记录 分 组 
1.15.1 问题 


有 一 系列 的 字典 或 对 象 实例 ， 我 们 想 根 据 菏 个 
特定 的 字段 〈 比 如 说 日 期 ) 来 分 组 迭代 数据 。 


1.15.2 ”解决 方案 


itertools.groupby() 疯 数 在 对 数据 进行 分 组 时 特 
ork ene eee eee 


rows = [ 
{'address': '5412 N CLARK', ‘date': '07/01/2012'}, 
{'address': '5148 N CLARK', ‘date': '07/04/2012'}, 
{'address': '5800 E 58TH', 'date': '07/02/2012'}, 
{'address': '2122 N CLARK', ‘date': '07/03/2012'}, 
{'address': '5645 N RAVENSWOOD', ‘'date': '07/02/2012'}, 





{'address': '1060 W ADDISON', ‘date': '07/02/2012'}, 
{'address': '4801 N BROADWAY', 'date': '07/01/2012'}, 
{'address': '1039 W GRANVILLE', ‘date': '07/04/2012'}, 





PLE ABC BC AER GS H HH Dh or Ze IIIT OE RBG o 
要 做 到 这 些 ， 首 先 以 目标 字段 在 这 个 例子 中 是 
date) 来 对 厅 列 排序 ， 然 后 再 使 用 


itertools.groupby(). 
from operator import itemgetter 
from itertools import groupby 


# Sort by the desired field first 


rows.sort(key=itemgetter('date') ) 


# Iterate in groups 


for date, items in groupby(rows, key=itemgetter('date')): 
print(date) 
for i in items: 
print(' ', i) 





这 会 产生 如 下 的 输出 : 


07/01/2012 
{'date': '07/01/2012', 'address': CLARK' } 
{'date': '07/01/2012', 'address': BROADWAY ' } 
07/02/2012 
{'date': '07/02/2012', 'address': 58TH' } 
{'date': '07/02/2012', 'address': RAVENSWOOD' } 
{'date': '07/02/2012', 'address': ADDISON ' } 


07/03/2012 
{'date': '07/03/2012', 'address': CLARK' } 
07/04/2012 
{'date': '07/04/2012', 'address': CLARK' } 
{'date': '07/04/2012', 'address': GRANVILLE' } 





1.15.3 讨论 


负数 groupbyO 通 过 扫 摘 序列 找 出 拥有 相同 值 
《或 是 由 参数 key 指 定 的 图 数 所 返回 的 值 ) 的 序列 
项 ， 并 将 它们 分 组 。groupby0O 创 建 了 一 个 迭代 器 ， 
而 在 每 次 迭代 时 都 会 返回 一 个 值 Cvalue) 和 一 个 子 
JARS (sub_iterator) ， 这 个 子 迭 代 器 可 以 产生 所 
有 在 该 分 组 内 具有 该 值 的 项 。 


在 这 里 重要 的 是 首 移 要 根据 感 兴趣 的 字段 对 数 
据 进 行 排序 。 因 为 groupbyO 只 能 检查 连续 的 项 ， 不 
首先 排序 的 话 ， 将 无 法 按 所 想 的 方式 来 对 记录 分 
组 。 


如 果 只 是 简单 地 根据 日 期 将 数据 分 组 到 一 起 ， 
放 进 一 个 大 的 数据 结构 中 以 允许 进行 随机 访问 ， 那 
么 利用 defaultdictO 构 建 一 个 一 键 多 值 字典 
Cmultidict， 见 1.6 节 ) 可 能 会 更 好 。 例 如 : 





from collections import defaultdict 
rows_by_date = defaultdict(list) 
for row in rows: 


rows_by_date[row['date']].append(row) 





这 使 得 我 们 可 以 方便 地 访问 每 个 日 期 的 记录 ， 
如 下 上 所 示 : 


rows_by_date['07/01/2012' |: 
ae print 


(r) 
{'date': '07/01/2012', 'address': '5412 N CLARK'} 


{'date': '07/01/2012', 'address': '4801 N BROADWAY'} 
>>> 





对 于 后 面 这 个 例子 ， 我 们 并 不 需要 先 对 记录 做 





排序 。 因 此 ， 如 采 不 考 碟 内 存 方 面 的 因 系 ， 这 种 方 
式 会 比 先 排序 再 用 groupby0) 迭 代 要 来 的 更 快 。 


1.16 mer FIFA CR 
1.16.1 问题 


序列 中 含有 一 些 数 据 ， 我 们 需要 提取 出 其 中 的 
值 或 根据 茶 些 标准 对 序列 做 删 减 。 


1.16.2 ”解决 方案 


要 沛 选 序 列 中 的 数据 ， 通 党 最 简单 的 方法 古 使 
用 列表 推导 式 (dist comprehension) 。 例 如 : 








>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1] 
>>> [n for 


n in 


mylist if 


n > 0] 
[1, 4, 10, 2, 3] 
>>> [n for 


n in 


mylist if 








使 用 列表 推导 式 的 一 个 潜在 缺点 是 如 果 原 始 输 





入 非常 大 的 话 ， 这 么 做 可 能 会 产生 一 个 庞大 的 结 

果 。 如 果 这 是 你 需要 考虑 的 问题 ， 那 么 可 以 使 用 生 
BM as PETA TU IIA RA Ty rE EY BR Bl 

如 : 








>>> pos = (n for 


n in 
mylist if 


n > 0) 

>>> pos 

at Ox1006a0ebo> 
>>> for 


print 


(x) 


有 时 候 科 选 的 标准 没 法 简单 地 表示 在 列表 推导 
式 或 生成 器 表达 式 中 。 比 如 ， 假 设 盘 选 过 程 涉及 异 
各 处 理 或 者 其 他 一 些 复杂 的 细节 。 基 于 此 ， 可 以 将 
处 理 筛 选 轴 辑 的 代码 放 到 单独 的 函数 中 ， 然 后 使 用 
内 建 的 filter0 国 数 处 理 。 示 例如 下 : 








values = ['1', '2', '-3', '-', '4', 'N/A', '5'] 


def 


is_int(val): 


x = int(val) 


return 


True 
except ValueError 


return 


False 


ivals = list(filter(is_int, values)) 
print 


(ivals) 
# Outputs ['1', '2', '-3', '4', '5'] 





filter(Ve ŒE SANA, Plea BR ER AT 





的 是 列表 形式 的 结果 ， 请 确保 加 上 了 list0， 融 像 示 
例 中 那样 。 


1.16.3 ”讨论 








列表 推导 式 和 生成 锅 表 达 式 通 利 是 用 来 筑 选 数 
据 的 最 简单 和 最 生 接 的 方式 。 此 外 ， 它 们 也 具有 同 
时 对 数据 做 转换 的 能 力 。 例 如 : 





>>> mylist = [1, 4, -5, 10, -7, 2, 3, -1] 
>>> import math 


>>> [math.sqrt(n) for 


n in 


mylist if 


n > 0] 


[1.0, 2.0, 3.1622776601683795, 1.4142135623730951, 1.73205080756 
>>> 





RT sie Bi» A OL ce H rel E EN 
WENE, MER CT. BN, RIER 
到 正 整 数 之 外 ， 我 们 也 许 还 和 希望 在 指定 的 范围 内 将 
ANE BOR ELS PR oH, ROY DAS Sida 
er ee 就 像 下 面 





>>> clip_neg = [n if 


n > 0 else 


0 for 


n in 


mylist ] 

>>> clip_neg 

[1, 4, 0, 10, 0, 2, 3, 0] 
>>> clip_pos = [n if 


n < 0 else 


0 for 


n in 


mylist ] 
>>> clip_pos 
[9, 0, -5/ O, Sla 0, O, -1] 


>>> 





Fy MBS RE 
itertools.compress(), EZ — An ARRIR AK — 
个 布尔 选择 器 序列 作为 输入 。 输 出 时 ， 它 会 给 出 所 
有 在 相应 的 布尔 选择 器 中 为 True 的 可 迭代 对 象 元 
系 。 如 果 想 把 对 一 个 序列 的 烽 选 结果 施加 到 另 一 个 
相关 的 序列 上 时 ， 这 吏 会 非常 有 用 。 例 如 ， 假 设 有 
以 下 两 列 数据 : 


addresses = [ 

'5412 N CLARK', 
'5148 N CLARK', 
'5800 E 58TH', 

'2122 N CLARK' 

"5645 N RAVENSWOOD', 
'1060 W ADDISON', 
'4801 N BROADWAY', 
'1039 W GRANVILLE', 





] 


counts = [ 0, 3, 10, 4, 1, 7, 6, 1] 





现在 我 们 想 构 建 一 个 地 址 列表 ， 其 中 相应 的 
count 值 要 大 于 5。 下 面 是 我 们 可 以 符 试 的 方法 : 





>>> from itertools import compress 


>>> more5 = [n > 5 for n in counts] 
>>> mores 


[False, False, True, False, False, True, True, False] 
>>> list(compress(addresses, more5)) 


'1039 W GRANVILLE’ ] 


['5800 E 58TH', '4801 N BROADWAY', 
>>> 





这 里 的 关键 在 于 首先 创建 一 个 布尔 序列 ， 用 来 
表示 哪个 元 系 可 满足 我 们 的 条 件 。 然 后 compress() 
为 数 挑 选 出 满足 布尔 值 为 True 的 相应 元 素 。 


同 filter0) 函 数 一 样 ， 正 常情 况 下 compress() 会 返 
回 一 个 迭代 器 。 因 此 ， 如 果 需 要 的 话 ， 得 使 用 list() 
将 结果 转 为 列表 。 


1.17 ”从 字典 中 提取 子 集 


1.17.1 问题 


我 们 想 创建 一 个 字典 ， 其 本 里 是 男 一 个 字典 的 
TR. 


1.17.2 ”解决 方案 


利用 字典 推导 式 (dictionary comprehension) 
可 轻松 解决 。 例 如 : 





prices = { 
"ACME': 45.23, 
"AAPL': 612.78, 
'IBM': 205.55, 
'HPQ': 37.20, 
'FB': 10.75 

} 


# Make a dictionary of all prices over 200 


p1 = { key:value for 


key, value in 


prices.items() if 


value > 200 } 


# Make a dictionary of tech stocks 


tech_names = { 'AAPL', 'IBM', 'HPQ', 'MSFT' } 
p2 = { key:value for 


key, value in 


prices.items() if 


key in 


tech_names } 





1.17.3 讨论 


大 部 分 可 以 用 字典 推导 式 解 决 的 问题 也 可 以 通 
过 创建 元 组 序列 然后 将 它们 传 给 dictO 函 数 来 完成 。 
例如 : 





p1 = dict((key, value) for 


key, value in 


prices.items() if 


value > 200) 


但 是 字典 推导 式 的 方案 更 加 清晰 ， 而 且 实 际 运 
行 起 来 也 要 快 很 多 《以 本 例 中 的 字典 prices 来 测 


i, BERR SB) o 


有 时 候 会 有 多 种 方法 来 完成 同一 件 事情 。 例 
如 ， 第 二 个 例子 还 可 以 重 写 成 : 














# Make a dictionary of tech stocks 
tech_names = { 'AAPL', 'IBM', 'HPQ', 'MSFT' } 
p2 = { key:prices[key] for 


key in 


prices.keys() & tech_names } 





但 是 ， 计 时 测试 表明 这 种 解决 方案 几乎 要 比 第 
一 种 慢 上 1.6 倍 。 如 果 和 需要 考虑 性 能 因素 ， 那 么 通常 
都 需要 花 一 点 时 间 来 研究 它 。 有 关 计 时 和 性 能 分 析 
方面 的 信息 ， 请 参见 14.13 节 。 





1.18 将 名 称 上 映射 到 序列 的 元 系 中 
1.18.1 问题 


我 们 的 代码 是 通过 位 置 〈 即 索引 ， 或 下 标 ) 来 
访问 列表 或 元 组 的 ， 但 有 时 候 这 会 使 代码 变 得 有 些 
难以 阅读 。 我 们 希望 可 以 通过 名 称 来 访问 元 系 ， 以 
此 减少 结构 中 对 位 置 的 依赖 性 。 


1.18.2 ”解决 方案 


相 比 普通 的 元 组 ，collections.namedtuple() 命 
名 元 组 ) 只 增加 了 极 小 的 开销 不 提供 了 这 些 便利 。 
实际 上 collections.namedtuple0) 是 一 个 工厂 方法 ， 它 
返回 的 是 Python 中 标准 元 组 类 型 的 子 类 。 我 们 提供 
给 它 一 个 类 型 名 称 以 及 相应 的 字段 ， 它 就 返回 一 个 
> 为 你 已 经 定义 好 的 字段 传 入 值 等 。 
多 如 : 








>>> from collections import namedtuple 

>>> Subscriber = namedtuple('Subscriber', ['addr', 'joined']) 
>>> sub = Subscriber('jonesy@example.com', '2012-10-19') 

>>> sub 

Subscriber (addr='jonesy@example.com', joined='2012-10-19' ) 
>>> sub.addr 

'jJonesy@example.com' 

>>> sub.joined 

'2012-10-19' 


尽管 namedtuple 的 实例 看 起 来 就 像 一 个 普通 的 
类 实例 ， 但 它 的 实例 与 普通 的 元 组 是 可 互 换 的 ， 而 
且 文 持 所 有 普通 元 组 所 文 持 的 操作 ， 例 如 索引 
(indexing) 和 分 解 Cunpacking) 。 比 如 : 





>>> len(sub) 
2 


>>> addr, joined = sub 
>>> addr 
'jonesy@example.com' 
>>> joined 
'2012-10-19' 

>>> 





命名 元 组 的 主要 作用 在 于 将 代码 同 它 所 控制 的 
元 系 位 置 间 解 秋 。 所 以 ， 如 采 从 数据 库 调 用 中 得 到 
一 个 大 型 的 元 组 列表 ， 而 且 通 过 元 系 的 位 置 来 访问 
数据 ， 那 么 假如 在 表单 中 新 增 了 一 列 数 据 ， 那 么 代 
码 束 会 朋 沉 。 但 如 果 首 先 将 返回 的 元 组 转型 为 命名 
元 组 ， 隐 不 会 出 现 问题 。 


为 了 说 明 这 个 问题 ， 下 面 有 一 些 使 用 普通 元 组 
的 代码 : 

















def 


compute_cost(records): 
total = 0.0 
for 


rec in 


records: 
total += rec[1] * rec[2] 
return 


total 














HL ie OR S| H AR E ES RIS DS 
够 强 ， 而 且 也 很 依赖 于 记录 的 具体 结构 。 下 面 是 使 
用 命名 元 组 的 版 本 : 





from collections import namedtuple 


Stock = namedtuple('Stock', ['name', 'shares', 'price']) 
def compute_cost(records): 

total = 0.0 

for rec in records: 


s = Stock(*rec) 
total += s.shares * s.price 
return total 





当然 ， 如 果 示 例 中 的 records 序 列 已 经 包含 了 这 
样 的 实例 ， 那 么 可 以 避免 显 式 地 将 记录 转换 为 Stock 


命名 元 组 [和 。 
1.18.3 ”讨论 


namedtuple 的 一 种 可 能 用 法 是 作为 字典 的 答 
代 ， 后 者 需要 更 多 的 空间 来 存储 。 因 此 ， 如 果 要 构 
建 涉 及 字典 的 大 型 数据 结构 ， 使 用 namedtuple 会 更 
加 高 效 。 但 是 请 注意 ， 与 字典 不 同 的 是 ， 
namedtuple 是 不 可 变 的 (“immutable〉。 例 如 : 











>>> s = Stock('ACME', 100, 123.45) 


>>> S 
Stock(name='ACME', shares=100, price=123.45) 
>>> S,Shares = 75 
Traceback (most recent call last): 

File "<stdin>", line 1, in 


<module> 
AttributeError 


: can't set attribute 
>>> 





如 果 需 要 修改 任何 属性 ， 可 以 通过 使 用 
namedtuple 实 例 的 _replace() 方 法 来 实现 。 该 方法 会 
创建 一 个 全 新 的 命名 元 组 ， 并 对 相应 的 值 做 替换 。 
示例 如 下 : 


._replace(shares=75) 


Stock(name='ACME', shares=75, price=123.45) 


>>> 





_replace0) 方 法 有 一 个 微妙 的 用 途 ， 那 就 是 它 可 
以 作为 一 种 简便 的 方法 填充 具有 可 选 或 缺失 字段 的 
命名 元 组 。 要 做 到 这 点 ， 首 先 创 建 一 个 包含 默认 值 
的 “原型 > 元 组 ， 然 后 使 用 _replace(0) 方 法 创建 一 个 新 
Seo, FLAME See. ANION: 


from collections import namedtuple 





Stock = namedtuple('Stock', ['name', 'shares', 'price', 'date', 


# Create a prototype instance 


stock_prototype = Stock('', 0, 0.0, None, None) 


# Function to convert a dictionary to a Stock 


def dict_to_stock(s): 
return stock_prototype._replace(**s) 





LEA AS — PETA AS ee fA EY: 





>>> a = {'name': 'ACME', 'shares': 100, 'price': 123.45} 
>>> dict_to_stock(a) 


Stock(name='ACME', shares=100, price=123.45, date=None, time=Non 
>>> b = {'name': 'ACME', 'shares': 100, 'price': 123.45, 'date': 
>>> dict_to_stock(b) 


Stock(name='ACME', shares=100, price=123.45, date='12/17/2012', 
>>> 





最 后 ， 也 是 相当 重要 的 是 ， 应 该 要 注意 如 末 我 





们 的 目标 是 定义 一 个 高 效 的 数据 结构 ， 而 且 将 来 会 
修改 各 种 实例 属性 ， 那 么 使 用 namedtuple 并 不 是 最 
佳 选择 。 相 反 ， 可 以 考虑 定义 一 个 使 用 _ slots_ 属 
性 的 类 《参见 8.4 节 ) 。 





1.19 同时 对 数据 做 转换 和 换算 
1.19.1 问题 

我 们 需要 调用 一 个 换算 (reduction) Ke A 
bsum0、min0、max0) ， 但 首先 得 对 数据 做 转换 
BY ITZ o 
1.19.2 RFR 


有 一 种 非常 优雅 的 方式 能 将 数据 换算 和 转换 结 
合 在 一 起 一 一 在 隙 数 参 数 中 使 用 生成 费 表 达 式 。 例 














如 ， 如 果 想 计算 平方 和 ， 可 以 像 下 面 这 样 做 : 


nums = [1, 2, 3, 4, 5] 
s = sum(x * x for 








这 里 还 有 一 些 其 他 的 例子 : 


# Determine if any .py files exist in a directory 


import os 


files = os.listdir('dirname' ) 


if 


any(name.endswith('.py') for 


name in 


files): 
print 


('There be python!') 
else 


print 


('Sorry, no python.') 


# Output a tuple as CSV 
s = ('ACME', 50, 123.45) 
print 


(', '.join(str(x) for 


S)) 


# Data reduction across fields of a data structure 
portfolio = [ 

{'name':'GOOG', 'shares': 50}, 

{'name':'YHOO', 'shares': 75}, 


{'name':'AOL', 'shares': 20}, 
{'name':'SCOX', 'shares': 65} 


min_shares = min(s['shares'] for 


portfolio) 





1.19.3 讨论 
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数 的 单独 参数 时 在 语法 上 的 一 些微 妙 之 处 《 即 ， 不 
BEREI) 。 比 如 ， 下 面 这 两 行 代 码 表 示 的 


JE |F 同一 个 意思 Iù S 

















s = sum((x * x for 


nums)) # Pass generator-expr as argument 
s = sum(x * x for 


nums ) # More elegant syntax 


比 起 首先 创建 一 个 临时 的 列表 ， 使 用 生成 井 做 
参数 通 利 是 更 为 高 效 和 优雅 的 方式 。 例 如 ， 如 采 不 
使 用 生成 硕 表 达 却 ， 可 能 会 考虑 下 面 这 种 实现 : 

















nums = [1, 2, 3, 4, 5] 
s = sum([x * x for 





这 也 能 工作 ， 但 这 引入 了 一 个 额外 的 步骤 而 且 
创建 了 额外 的 列表 。 对 于 这 么 小 的 一 个 列表 ， 这 根 
本 束 无 关 紧 要 ， 但 是 如 果 nums 非 常 巨 大 ， 那 么 融会 
创建 一 个 庞大 的 临时 数据 结构 ， 而 且 只 用 一 次 就 要 
FF. FET HAE RM aS ARR RY WAAR ae 
换 数 据 ， 因 此 在 内 存 使 用 上 要 高 效 得 多 。 

某 些 特定 的 换算 函数 比如 min() 和 max() 都 可 接 
受 一 个 key 参 数 ， 当 可 能 倾 同 于 使 用 生成 器 时 会 很 
有 帮助 。 例 如 在 portfolio 的 例子 中 ， 也 许 会 考虑 下 
面 这 种 人 蔡 代 方案 : 


# Original: Returns 20 
min_shares = min(s['shares'] for 














portfolio) 


# Alternative: Returns {'name': 'AOL', 'shares': 20} 
min_shares = min(portfolio, key=lambda 


s: s['shares']) 





1.20 将 多 个 映射 合并 为 单个 映射 


1.20.1 问题 





我 们 有 多 个 字典 或 映射 ， 想 在 馆 辑 上 将 它们 合 
并 为 一 个 单独 的 映射 结构 ， 以 此 执行 共 些 特定 的 操 
作 ， 比 如 得 找 值 或 检查 键 是 售 存 在 。 


1.20.2 解决 方案 


假设 有 两 个 字典 : 








现在 假设 想 执 行 查找 操作 ， 我 们 必须 得 检查 这 
两 个 字典 (例如 ， 先 在 a 中 查找 ， 如 果 没 找到 再 去 b 





中 查找 ) 。 一 种 简单 的 方法 是 利用 collections 模 块 
中 的 ChainMap 类 来 解决 这 个 问题 。 例 如 : 





from collections import ChainMap 
c = ChainMap(a,b) 
print(c['x']) # Outputs 1 (from a) 


print(c['y']) # Outputs 2 (from b) 


print(c['z']) # Outputs 3 (from a) 





1.20.3 ”讨论 


ChainMap 可 接受 多 个 映射 然后 在 逻辑 上 使 它们 
表现 为 一 个 单独 的 映射 结构 。 但 是 ， 这 些 映射 在 字 
面 上 并 不 会 合并 在 一 起 。 相 反 ，ChainMap 只 是 简单 
地 维护 一 个 记录 展 层 映射 天 系 的 列表 ， 然 后 重 定 义 
第 见 的 字典 操作 来 扫描 这 个 列表 。 大 部 分 的 操作 都 
能 正常 工作 。 例 如 : 


>>> len(c) 
3 


>>> list(c.keys()) 
['x', 1 'Z! 
>>> list(c.values()) 


[1, 2, 3] 
>>> 
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中 所 对 应 的 值 。 因 此 ， 例 子 中 的 cL 和 z"] 忌 是 引用 字典 
a 中 的 值 ， 而 不 是 字典 b 中 的 值 。 





修改 映射 的 操作 总 是 会 作用 在 列 出 的 第 一 个 映 
射 结 构 上 。 例 如 : 


'y'] 
Traceback (most recent call last): 


KeyError: "Key not found in the first mapping: 'y'" 


>>> 








ChainMap 与 市 有 作用 域 的 值 ， 比 如 编程 语言 中 
的 变量 〈 即 全 局 变量 、 局 部 变量 等 ) 一 起 工作 时 特 
列 有 用。 实际 上 这 里 有 一 些 方法 使 这 个 过 程 变 得 简 


FA 

















>>> values = ChainMap() 
>>> values['x'] = 1 
>>> # Add a new mapping 


values = values.new_child() 


>>> values['x'] = 2 
>>> # Add a new mapping 


>>> values = values.new_child() 

>>> values['x'] = 3 

>>> values 

ChainMap({'x': 3}, {'x': 2}, {'x': 1}) 
>>> values['x' ] 

3 

>>> # Discard last mapping 


>>> values = values.parents 
>>> values['x'] 


>>> # Discard last mapping 


>>> values = values.parents 
>>> values['x' ] 

1 

>>> values 

ChainMap({'x': 1}) 

>>> 





作为 ChainMap 的 答 代 方案 ， 我 们 可 能 会 考虑 利 
用 字典 的 update0) 方 法 将 多 个 字典 合并 在 一 起 。 例 
如 : 


35> A Eip nri 
>>> b = {'y': 2, 'z': 
>>> merged = dict(b) 
>>> merged.update(a) 
>>> merged['x'] 





KW 
Www 


1 
>>> merged['y' ] 
2 


>>> merged['z' ] 
3 


>>> 





这 么 做 行 得 通 ， 但 这 需要 单独 构建 一 个 完整 的 








字典 对 象 〈 或 者 修改 其 中 现 有 的 一 个 字典 ， 这 惑 破 
坏 了 原始 数据 ) 。 上 此外， 如 果 其 中 任何 一 个 原始 字 
典 做 了 修改 ， 这 个 改变 都 不 会 反应 到 合并 后 的 字典 
中 。 例 如 : 


>>> a['x'] = 13 
>>> merged['x' ] 
1 








而 ChainMap 使 用 的 就 是 原始 的 字典 ， 因 此 它 不 
会 产生 这 种 令 人 不 悦 的 行为 。 示 例如 下 : 





>>> merged = ChainMap(a, b) 
>>> merged['x' ] 


1 

>>> a['x'] = 42 

>>> merged['x' ] # Notice change to merged dicts 
42 


pO 


[1] 如 果 一 个 对 象 是 可 哈 希 的 ， 那 么 在 它 的 生存 
期 内 必须 是 不 可 变 的 ， 它 需要 有 一 个 _hash_0 方 
法 。 整 数 、 浮 点 数 、 字 符 串 、 元 组 都 是 不 可 变 的 。 
一 译 者 注 


[2] “集合 的 特点 吏 是 集合 中 的 元 素 都 是 唯一 的 ， 
但 不 保证 它们 之 间 的 顺序 。 一 一 详 者 注 


[3] ”平面 文件 (flat file) 是 一 种 包含 没有 相对 关 
系 结构 的 记录 文件 。 译 者 注 


[4] “作者 的 意思 是 如 果 records 中 的 元 素 是 某 个 类 
的 实例 ， 且 已 经 有 了 shares 和 price 这 样 的 属性 ， 那 
就 可 以 直接 通过 属性 名 来 访问 ， 不 需要 通过 位 置 来 
引用 ， 也 就 没有 必要 再 转换 成 命名 元 组 了 。 详 
者 注 
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无 论 是 解析 数据 还 是 产生 输出 ， 几 乎 每 一 个 有 
实用 价值 的 程序 都 会 涉及 某 种 形式 的 文本 处 理 。 本 
章 的 重点 放 在 有 关 文 本 操作 的 常见 问题 上 ， 例 如 拆 
Ay PAP FRA BR EDD Rie. VES 
任务 都 可 以 通过 内 建 的 字符 串 方 法 轻松 解决 。 但 
是 ， 更 复杂 的 操作 可 能 会 需要 用 到 正则 表达 式 或 者 
创建 完整 的 解析 器 才能 得 到 解决 。 以 上 所 有 主题 本 
章 都 有 涵盖 。 此 外 ， 本 章 还 提 到 了 一 些 同 Unicode 
打交道 时 用 到 的 技巧 。 

















2.1 针对 任意 多 的 分 隔 符 拆 分 字符 
EP 


2.1.1 问题 





”我们 需要 将 字符 串 拆 分 为 不 同 的 字段 ， 但 是 分 
隔 符 〈 以 及 分 隔 符 之 间 的 空格 ) 在 整个 字符 串 中 并 
不 一 至 





2.1.2 ”解决 方案 


字符 串 对 象 的 split0 方 法 只 能 处 理 非常 简单 的 
情况 ， 而 且 不 文 持 多 个 分 隅 符 ， 对 分 隔 符 周围 可 能 
存在 的 空格 也 无 能 为 力 。 当 需要 一 些 更 为 灵活 的 功 
能 时 ， 应 该 使 用 re.split(0 方 法 : 








>>> line = 'asdf fjdk; afed, fjek,asdf, 
>>> import re 


>>> re.split(r'[;,\s]\s*', line) 
['asdf', 'fjdk', 'afed', 'fjek', ‘asdf', 'foo'] 





2.1.3 ”讨论 








re.SplitO 是 很 有 用 的 ， 因 为 可 以 为 分 隔 符 指 定 
多 个 模式 。 例 如 ， 在 上 面 的 解决 方案 中 ， 分 隔 符 可 
以 是 逗号 、 分 号 或 者 是 空格 从 (后 面 可 跟着 任意 数 
量 的 额外 空格 〉。 只 要 找到 了 对 应 的 模式 ， 无 论 罗 
配点 的 两 端 是 什么 字段 ， 整 个 匹配 的 结果 就 成 为 那 
个 分 隔 符 。 最 终 得 到 的 结果 是 字段 列表 ， 同 
str.SplitO 得 到 的 结果 一 样 。 


当 使 用 re.split0 时 ， 需 要 小 心 正则 表达 式 模 式 
中 的 捕获 组 (capture group) 是 否 包 含 在 了 括号 
中 。 如 果 用 到 了 捕获 组 ， 那 么 匹配 的 文本 也 会 包含 
在 最 终结 果 中 。 比 如 ， 看 看 下 面 的 结 























>>> fields = re.split(r'(;|,|\s)\s*', line) 
>>> fields 


['asdf', 1 E7 'fjdk', RT 'afed', ie 'fjek', 1 1 
>>> 








在 特定 的 上 下 文中 获取 到 分 隅 字符 也 可 能 是 有 
用 的 。 例 如 ， 也 许 稍 后 要 用 到 分 隅 字符 来 改进 字符 
里 的 输出 : 





>>> values = fields[::2] 

>>> delimiters = fields[1::2] + [''] 

>>> values 

['asdf', 'fjdk', 'afed', 'fjek', ‘asdf', 'foo'] 
>>> delimiters 


了 了 了 了 了 rip eae ''] 
>>> # Reform the line using the same delimiters 


>>> '',join(v+d for 


v,d in 


Zip(values, delimiters) ) 
‘asdf fjdk;afed, fjek,asdf,foo' 
>>> 
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括号 来 对 正则 表达 陈 模 式 进 行 分 组 ， 请 确保 用 的 是 
非 捕 获 组 ， 以 (?:) 的 形 却 指定 。 示 例如 下 : 
>>> re.split(r'(?:,|;|\s)\s*', line) 


['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo'] 
>>> 





2.2 ”在 字符 串 的 开头 或 结尾 处 做 文 
本 匹配 


2.2.1 问题 





我 们 需要 在 字符 串 的 开头 或 结尾 处 按照 指定 的 
文本 便 式 做 检查 ， 例 如 检查 文件 的 扩展 名 、URL 协 


议 类 型 等 。 
2.2.2 ”解决 方案 
有 一 种 简单 的 方法 可 用 来 检查 字符 串 的 开头 或 


结尾 ， 只 要 使 用 str.startswith() 和 str.endswith() 方 法 
就 可 以 了 。 示 例如 下 : 





>>> filename = 'spam.txt' 

>>> filename.endswith('.txt') 
True 

>>> filename.startswith('file:') 
False 


>>> url = 'http://www.python.org' 


>>> url.startswith('http:') 
True 
>>> 
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startswith() 和 endswith() 提 供 包 含 可 能 选项 的 元 组 即 
可 : 


>>> import os 

>>> filenames = os.listdir('.') 

>>> filenames 

[ 'Makefile', 'foo.c', '‘bar.py', 'Spam.c', 'spam.h' | 

>>> [name for name in filenames if name.endswith(('.c', '.h')) ] 


['foo.c', 'spam.c', 'spam.h' 

>>> any(name.endswith('.py') for name in filenames) 
True 

>>> 





from urllib.request import urlopen 


def read_data(name): 
if name.startswith(('http:', 'https:', 'ftp:')): 
return urlopen(name).read() 
else: 
with open(name) as f: 
return f.read() 





奇怪 的 是 ， 这 是 Python 中 需要 把 元 组 当成 输入 
的 一 个 地 方 。 如 果 我 们 刚好 把 选项 指定 在 了 列表 或 
集合 中 ， 请 确保 首先 用 tuple0 将 它们 转换 成 元 组 。 
示例 如 下 : 





>>> choices = ['http:', 'ftp:'] 
>>> url = 'http://www.python.org' 
>>> url.startswith(choices) 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


TypeError: startswith first arg must be str or a tuple of str, n 
>>> 


url.startswith(tuple(choices) ) 
True 


>>> 





2.2.3 讨论 


startswith() 和 endswith() 方 法 提供 了 一 种 非常 方 
便 的 方式 来 对 字符 串 的 前 级 和 后 级 做 基本 的 检 枉 。 
半 似 的 操作 也 可 以 用 切片 来 完成 ， 但 是 那 种 方案 不 
够 优雅 。 例 如 : 











>>> filename = 'spam.txt' 

>>> filename[-4:] == '.txt' 

True 

>>> url = 'http://www.python.org' 
>>> url[:5] == 'http:' or 


url[:6] == 'https:' or 


url[:4] == 'ftp:' 
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代 方 案 。 例 如 : 


>>> import re 
>>> url = 'http://www.python.org' 
>>> re.match('http:|https:|ftp:', url) 


<_sre.SRE_Match object at 0x101253098> 
>>> 





这 也 行 得 通 ， 但 是 通常 对 于 简单 的 匹配 来 说 有 
些 过 于 重量 级 了 。 使 用 本 节 提 到 的 扩 术 会 更 简单 ， 
运行 得 也 更 快 。 


最 后 但 同样 重要 的 是 ， 当 startswithO 和 
endswith() 方 法 和 其 他 操作 (比如 常见 的 数据 整理 操 
VE) 结合 起 来 时 效果 也 很 好 。 例 如 ， 下 面 的 语句 检 
查 目 录 中 有 无 出 现 特定 的 文件 : 








if 


any(name.endswith(('.c', '.h')) for 


name in 


listdir(dirname) ): 





2.3 ”利用 Shell 通 配 符 做 字符 串 匹 配 
2.3.1 问题 
当 工 作 在 UNIX Shell 下 时 ， 我 们 想 使 用 常见 的 


通配符 模式 〈 即 ，*.py、Dat[0-9]*.csv 等 ) 来 对 文本 
做 匹配 。 








2.3.2 ”解决 方案 


fnmatch 模 块 提供 了 两 个 函数 fnmatch() 和 
fnmatchcase() 可 用 来 执行 这 样 的 匹配 。 使 用 起 
来 很 简单 : 














>>> from fnmatch import fnmatch, fnmatchcase 
>>> fnmatch('foo.txt', '*.txt') 


True 

>>> fnmatch('foo.txt', '?00.txt') 

True 

>>> fnmatch('Dat45.csv', 'Dat[0-9]*') 

True 

>>> names = ['Dati.csv', 'Dat2.csv', 'config.ini', 'foo.py'] 


>>> [name for 


name in 


names if 


fnmatch(name, 'Dat*.csv') ] 


['Dati.csv', 'Dat2.csv'] 
>>> 


一 般 来 说 ，fnmatchO 的 匹配 模式 所 采用 的 大 小 
写 区 分 规则 和 底层 文件 系统 相同 〈 根 据 操作 系统 的 
不 同 而 有 所 不 同 ) 。 例 如 : 
>>> # On OS X (Mac) 


>>> fnmatch('foo.txt', '*.TXT') 
False 





>>> # On Windows 


>>> fnmatch('foo.txt', '*.TXT') 
True 
>>> 
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fnmatchcase()。 它 完全 根据 我 们 提供 的 大 小 写 方式 
来 匹配 : 


>>> fnmatchcase('foo.txt', '*.TXT') 
False 
>>> 





关于 这 些 函 数 ， 一 个 第 被 忽略 的 特性 是 它们 在 
处 理 非 文 件 名 式 的 字符 串 时 的 潜在 用 途 。 例 如 ， 假 
设 有 一 组 街道 地 址 ， 就 像 这 样 : 


addresses = [ 
"5412 N CLARK ST', 
‘1060 W ADDISON ST', 
"1039 W GRANVILLE AVE', 
"2122 N CLARK ST', 


"4802 N BROADWAY', 





可 以 像 下 面 这 样 写 列表 推导 式 : 


>>> from fnmatch import fnmatchcase 

>>> [addr for addr in addresses if fnmatchcase(addr, '* ST')] 
['5412 N CLARK ST', '1060 W ADDISON ST', '2122 N CLARK ST ] 

>>> [addr for addr in addresses if fnmatchcase(addr, '54[0-9][0-5 


['5412 N CLARK ST'] 
>>> 





2.3.3 it 


fnmatch 押 完成 的 匹配 操作 有 点 介 乎 于 简单 的 
字符 串 方 法 和 全 功能 的 正则 表达 式 之 间 。 如 果 只 是 
试看 在 处 理 数据 时 提供 一 种 简单 的 机 制 以 允许 使 用 
通配符 ， 那 么 通常 这 部 十 个 合理 的 解决 方 采 。 


如 果实 际 上 是 想 编写 匹配 文件 名 的 代码 ， 那 应 
该 使 用 glob 模 块 来 完成 ， 请 参见 5.13 节 。 





2.4 文本 模式 的 匹配 和 得 找 


2.4.1 问题 





我 们 想 要 按照 特定 的 文本 模式 进行 匹配 或 奉 
找 。 


2.4.2 ”解决 方案 


如 果 想 要 [区 配 的 只 是 简单 的 文字 ， 那 么 通常 只 
需要 用 基本 的 字符 串 方 法 束 可 以 了 ， 比 如 
str.find()、str.endswith()、str.startswith() 或 类 似 的 函 
Bo ANGI F: 





>>> text = 'yeah, but no, but yeah, but no, but yeah' 


>>> # Exact match 


>>> text == 'yeah' 
False 


>>> # Match at start or end 


>>> text.startswith('yeah' ) 
True 

>>> text.endswith('no' ) 
False 


>>> # Search for the location of the first occurrence 


>>> text.find('no') 





对 于 更 为 复 森 的 匹配 则 需要 使 用 正则 表达 式 以 








及 re 模块 。 为 了 说 明 使 用 正则 表达 式 的 基本 流程 ， 





假设 我 们 想 匹 配 以 数字 形式 构成 的 日 期 ， 比 
如 “11/27/2012”。 示 例如 下 : 





>>> text1 = '11/27/2012' 
>>> text2 = 'Nov 27, 2012' 
>>> 


>>> import re 


>>> # Simple matching: \d+ means match one or more digits 


>>> if 


re. ene ee \d+/\d+/\d+', text1): 
print 


('yes' ) 
. else 


print 


('no') 
yes 
>>> if 


re.match(r'\d+/\d+/\d+', text2): 
PESI print 


('yes') 
. else 





如 果 打 算 针 对 同一 种 模式 做 多 次 匹配 ， 那 么 通 
aa 
列 如 : 


>>> datepat = re.compile(r'\d+/\d+/\d+' ) 
>>> if 





datepat.match(text1): 


print 


('yes' ) 
... else 


print('no') 
yes 
>>> if 


datepat.match(text2): 
Bere print 


('yes' ) 
.. else 


print 


( no ) 


no 
>>> 








match() 方 法 总 是 尝试 在 字符 串 的 开头 找到 [匹配 
项 。 如 果 想 针对 整个 文本 搜索 出 所 有 的 匹配 项 ， 那 





么 丈 应 该 使 用 findall(0 方 法 。 例 如 


>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013. ' 
>>> datepat.findall(text) 
['11/27/2012', '3/13/2013' | 


>>> 





当 定 义 正则 表达 式 时 ， 我 们 常会 将 部 分 模式 用 
括 写 包 起 来 的 方式 引入 捕获 组 。 例 如 : 


>>> datepat = re.compile(r'(\d+)/(\d+)/(\d+)') 
>>> 











捕获 组 通常 能 简化 后 续 对 匹配 文本 的 处 理 ， 因 
为 每 个 组 的 内 容 部 可 以 单独 提取 出 来 。 例 如 : 





>>> m = datepat.match('11/27/2012' ) 
>>> m 


<_sre.SRE_Match object at 0x1005d2750> 
>>> # Extract the contents of each group 


>>> m.group(0) 
'11/27/2012' 
>>> m.group(1) 
ksa kn 

>>> m.group(2) 
"OT! 

>>> m.group(3) 


>>> m.groups() 

('11', '27', '2012') 

>>> month, day, year = m.groups() 
>>> 


>>> # Find all matches (notice splitting into tuples) 


>>> text 

‘Today is 11/27/2012. PyCon starts 3/13/2013. ' 
>>> datepat.findall(text) 

[('11', '27', '2012'), ('3', '13', '2013')] 
>>> for 


month, day, year in 


datepat.findall(text): 
wa print 


('{}-{}-{}'.format(year, month, day) ) 
2012-11-27 


2013-3-13 
>>> 





findall() 方 法 搜索 整个 文本 并 找 出 所 有 的 匹配 
项 然后 将 它们 以 列表 的 形式 返回 。 如 果 想 以 迭代 的 
方式 找 出 匹配 项 ， 可 以 使 用 finditer() 方 法 。 示 例如 
下 : 


>>> for 


datepat.finditer(text): 
ee print 


(m.groups()) 
('11', '27', '2012') 


C3 +13" t2013") 
>>> 





2.4.3 it 
有 关 正 则 表达 式 的 基本 理论 教学 超出 了 本 书 的 

















范围 。 但 是 ， 本 节 回 您 展示 了 利用 re 模块 来 对 文本 
做 匹配 和 搜索 的 基础 。 基 本 功能 是 首先 用 
re.compile() 对 模式 进行 编译 ， 然 后 使 用 像 match()、 
findall0 或 finditerO 这 样 的 方法 做 匹配 和 搜索 。 


当 指 定 模式 时 我 们 通 种 会 使 用 原始 字符 串 ， 比 
如 rCd+)Cd+)CAd+)。 这 样 的 字符 串 不 会 对 及 射线 学 
符 转 义 ， 这 在 正则 表达 式 上 下 文中 会 很 有 用 。 
则 ， 我 们 需要 用 双 反 和 斜 线 来 表示 RRL, 
u'(\d+)/(\d+)/(\d+)'< 














请 注意 match0 方 法 只 会 检查 字符 串 的 开头 。 有 
可 能 出 现 匹 配 的 结果 并 不 是 你 想 要 的 情况 。 例 如 : 


>>> m = datepat.match('11/27/2012abcdef' ) 
>>> m 

<_sre.SRE_Match object at 0x1005d27e8> 
>>> m.group( ) 


"11/27/2012 ' 
>>> 





GRAS Se a DL, SR TERE BT 
结束 标记 〈$) ， 示 例如 下 : 


>>> datepat = re.compile(r'(\d+)/(\d+)/(\d+)$') 
>>> datepat.match('11/27/2012abcdef ' ) 

>>> datepat.match('11/27/2012' ) 

<_sre.SRE_Match object at 0x1005d2750> 

>>> 








最 后 ， 如 果 只 是 想 执行 简单 的 文本 匹配 和 搜索 
操作 ， 通 第 可 以 省 略 编译 步骤 ， 直 接 使 用 re 模块 中 
的 函数 即 可 。 例 如 : 
>>> re.findall(r'(\d+)/(\d+)/(\d+)', text) 


[Cua Yt27 '9012"), (13', 93". "2013*)] 
>>> 





请 注意 ， 如 果 打 算 执 行 很 多 匹配 或 查找 操作 的 











话 ， 通 津 需要 先 将 模式 编译 然后 再 香 复 使 用 。 模 块 
级 的 函数 会 对 最 近 编 译 过 的 模式 做 缓存 处 理 ， 因 此 
这 里 并 不 会 有 巨大 的 性 能 差异。 但 是 使 用 目 己 编译 
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25 查找 和 蔡 换 文本 
2.5.1 问题 


我 们 想 对 字符 串 中 的 文本 做 查找 和 符 换 。 








2.5.2 ”解决 方案 


对 于 简单 的 文本 模式 ， 使 用 str.replace() 即 可 。 
例如 : 





>>> text = 'yeah, but no, but yeah, but no, but yeah' 


>>> text.replace('yeah', 'yep') 
‘yep, but no, but yep, but no, but yep' 
>>> 





针对 更 为 复杂 的 模式 ， 可 以 使 用 re 模块 中 的 
sub0 函 数 /方法 。 为 了 说 明 如 何 使 用 ， 假 设 我 们 想 
把 日 期 格式 从 “11/27/2012” 改 写 为 “2012-11-27”。 示 
例如 下 : 





>>> text = 'Today is 11/27/2012. PyCon starts 3/13/2013. ' 
>>> import re 


>>> re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text) 
‘Today is 2012-11-27. PyCon starts 2013-3-13.' 
>>> 





sub0 的 第 1 个 参数 是 要 匹配 的 模式 ， 第 2 个 参数 





是 要 谷 换 上 的 模式 。 闫 似 A3” 这 样 的 反 斜 线 加 数字 
的 符 写 代表 着 模 式 中 捕获 组 的 数量 。 


如 条 打 算 用 相同 的 模式 执行 重复 答 换 ， 可 以 考 
谋 先 将 模式 编译 以 获得 更 好 的 性 能 。 示 例如 下 : 





>>> import re 
>>> datepat = re.compile(r'(\d+)/(\d+)/(\d+)') 
>>> datepat.sub(r'\3-\1-\2', text) 


"Today is 2012-11-27. PyCon starts 2013-3-13.' 
>>> 





对 于 更 加 复杂 的 情况 ， 可 以 指定 一 个 蔡 换 回调 
疯 数 。 示 例如 下 : 


>>> from calendar import month_abbr 
>>> def change_date(m): 
mon_name = month_abbr[int(m.group(1)) ] 
return '{} {} {}'.format(m.group(2), mon_name, m.group( 


>>> datepat.sub(change_date, text) 


"Today is 27 Nov 2012. PyCon starts 13 Mar 2013.' 
>>> 





符 换 回调 函数 的 输入 参数 是 一 个 匹配 对 象 ， 由 
match0O 或 findO0 返 回 。 用 .group(0) 方 法 来 提取 匹配 中 
特定 的 部 分 。 这 个 函数 应 该 返回 符 换 后 的 文本 。 


除了 得 到 符 换 后 的 文本 外 ， 如 果 还 想 知道 一 共 
完成 了 多 少 次 符 换 ， 可 以 使 用 re.subnO0。 例 如 : 








>>> newtext, n = datepat.subn(r'\3-\1-\2', text) 
>>> newtext 
"Today is 2012-11-27. PyCon starts 2013-3-13.' 


>>> n 
2 
>>> 





2.5.3 Wit 


除了 以 上 展示 的 sub0 调 用 之 外 ， 关 于 正则 表达 
式 的 查找 和 蔡 换 并 没有 什么 更 多 可 说 的 了 。 最 有 技 
巧 性 的 地 方 在 于 指定 正则 表达 式 模式 一 一 这 个 最 好 
还 是 留 给 读者 自己 去 练习 吧 ，。 





26 ”以 不 区 分 大 小 写 的 方式 对 文本 
(ES FAL FS HR 
2.6.1 问题 


我 们 需要 以 不 区 分 大 小 写 的 方式 在 文本 中 进行 
碍 找 ， 可 能 还 需要 做 符 换 。 





2.6.2 ”解决 方案 


要 进行 不 区 分 大 小 写 的 文本 操作 ， 我 们 需要 使 
用 re 模块 并 且 对 各 种 操作 都 要 加 上 re.IGNORECASE 
标记 。 例 如 : 








>>> text = 'UPPER PYTHON, lower python, Mixed Python' 
>>> re.findall('python', text, flags=re.IGNORECASE ) 
['PYTHON', 'python', 'Python' ] 

>>> re.sub('python', 'snake', text, flags=re.IGNORECASE ) 


"UPPER snake, lower snake, Mixed snake' 
>>> 








上 面 这 个 例子 揭示 出 了 一 种 局 限 ， 那 就 是 竺 符 
换 的 文本 与 匹配 的 文本 大 小 写 并 不 吻合 。 如 果 想 修 
正 这 个 问题 ， 需 要 用 到 一 个 文 撑 函数 (support 
function) ， 示 例如 下 : 





def 


matchcase(word): 
def 


replace(m): 
text = m.group() 
if 


text.isupper(): 
return 


word.upper() 
elif 


text.islower(): 
return 


word. lower () 
elif 


text[0].isupper(): 
return 


word.capitalize() 
else 


return 


word 
return 


replace 


下 和 面 是 使 用 这 个 函数 的 例子 : 





>>> re.sub('python', matchcase('snake'), text, flags=re.IGNORECA! 
"UPPER SNAKE, lower snake, Mixed Snake' 
>>> 





2.6.3 ”讨论 


对 于 简单 的 情况 ， 只 需 加 上 re.IGNORECASE 
标记 就 足以 进行 不 区 分 大 小 写 的 匹配 操作 了 。 但 请 
ee E 
的 Unicode 匹 配 来 说 可 能 是 不 够 的 。 具 体 细 节 请 参 
WL2.1075 。 








2.7 ”定义 实现 最 短 匹 配 的 正则 表达 
式 
2.7.1 问题 

我 们 正在 尝试 用 正则 表达 式 对 文本 模式 做 匹 


配 ， 但 识别 出 来 的 是 最 长 的 可 能 匹配 。 相 反 ， 我 们 
想 将 其 修改 为 找 出 最 短 的 可 能 匹配 。 








2.7.2 ”解决 方案 


这 个 问题 通常 会 在 匹配 的 文本 被 一 对 开始 和 结 
束 分 隔 符 包 起 来 的 时 候 出 现 〈 例 如 带 引 号 的 字符 
E) 。 为 了 说 明 这 个 问题 ， 请 看 下 面 的 例子 : 











>>> str_pat = re.compile(r'\"(.*)\"') 

>>> text1 = 'Computer says "no."' 

>>> str_pat.findall(text1) 

['no.'] 

>>> text2 = 'Computer says "no." Phone says "yes."' 


>>> str_pat.findall(text2) 
['no." Phone says "yes.' ] 
>>> 





在 这 个 例子 中 ， 模 式 r\(.*)* 尝 试 去 匹配 包含 
在 引号 中 的 文本 。 但 是 ，* 操 作 符 在 正则 表达 式 中 











采用 的 是 贫 心 策略， 所 以 匹配 过 程 是 基于 找 出 最 长 
的 可 能 匹配 来 进行 的 。 因 此 ， 在 text2 的 例子 中 ， 它 
错误 地 匹配 成 2 个 被 引号 包围 的 字符 串 。 


要 解决 这 个 问题 ， 只 要 在 模式 中 的 * 操 作 符 后 
ME? 修饰 符 融 可 以 了 。 示 例如 下 : 








>>> str_pat = re.compile(r'\"(.*?)\"') 
>>> str_pat.findall(text2) 


['no.', 'yes.'] 
>>> 





这 么 做 使 得 匹配 过 程 不 会 以 贷 心 方式 进行 ， 也 
束 会 产生 出 最 短 的 匹配 了 。 


2.7.3 讨论 


本 市 所 到 了 一 个 当 编 写 含有 人 名 把 〈.) 字符 的 正 
则 表达 式 时 常会 过 到 的 问题 。 在 模式 中 ， 人 句点 除了 
换行 符 之 外 可 匹配 任意 字符 。 但 是 ， 如 打 以 开始 和 
结束 文本 《比如 说 引号 ) 将 句点 括 起 来 的 话 ， 在 匹 
配 过 程 中 将 答 试 找 出 最 长 的 可 能 匹配 线条 。 这 会 导 
致 正 配 时 跳 过 多 个 开始 或 结束 文本 ， 而 将 它们 都 包 
舍 在 最 长 的 匹配 中 。 在 * 或 + 后 添加 一 个 ?” ， 会 强制 
将 匹配 算法 调整 为 寻找 最 短 的 可 能 匹配 。 




















2.8 ”编写 多 行 模式 的 正则 表达 式 
2.8.1 问题 


我 们 打算 用 正则 表达 式 对 一 段 文 本 块 做 匹配 ， 
但 是 希望 在 进行 匹配 时 能 够 跨越 多 行 。 


2.8.2 ”解决 方案 
这 个 问题 一 般 出 现在 希望 使 用 句点 〈.) 来 匹配 


任意 字符， 但 是 起 记 了 了 句 扩 并 不 能 匹配 换行 符 时 。 
例如 ， 假 设想 匹配 C 语 言 风格 的 注释 : 





>>> comment = re.compile(r'/A\*(.*?)\*/') 
>>> texti = '/* this is a comment */' 
>>> text2 = '''/* this is a 


multiline comment */ 


>>> 

>>> comment.findall(text1) 
[' this is a comment '] 
>>> comment. findall(text2) 


[] 


>>> 





要 解雇 这 个 问题 ， 可 以 添加 对 换行 符 的 文 持 。 
示例 如 下 : 


>>> comment = re.compile(r'/\*((?:.|]\n)*?)\*/') 
>>> comment.findall(text2) 


[' this is a\n multiline comment '] 
>>> 





在 这 个 模式 中 ，(?:.|\n) 指 定 了 一 个 非 捕 获 组 
( 即 ， 这 个 组 只 做 匹配 但 不 捕获 结果 ， 也 不 会 分 配 
组 号 ) 。 


2.8.3 讨论 
re.COmpileO 函 数 可 接受 一 个 有 用 的 标记 


re.DOTALL。 这 使 得 正则 表达 式 中 的 句点 (JJ 可 以 匹 
配 所 有 的 字符 ， 也 包括 换行 符 。 例 如 : 





>>> comment = re.compile(r'/\*(.*?)\*/', re.DOTALL) 
>>> comment.findall(text2) 
[' this is a\n multiline comment '] 





对 于 简单 的 情况 ， 使 用 re.DOTALL 标 记 就 可 以 
很 好 地 完成 工作 。 但 是 如 果 要 处 理 极 其 复杂 的 模 
式 ， 或 者 面 对 的 是 如 2.18 节 中 所 描述 的 为 了 做 分 词 
(tokenizing) 而 将 单独 的 正则 表达 式 合 并 在 一 起 的 





情况 ， 如 宁可 以 选择 的 话 ， 通 种 更 好 的 方法 是 定义 
目 己 的 正则 表达 陈 模 式 ， 这 样 它 无 需 额外 的 标记 也 
能 正确 工作 。 


2.9 ”将 Unicode 文 本 统一 表示 为 规 
WI Th 


2.9.1 问题 





我 们 正在 同 Unicode 字 符 串 打交道 ， 但 需要 确 
RAKTI BB A DY SER RAN 


2.9.2 ”解决 方案 
在 Unicode 中 ， 有 些 特 定 的 字符 可 以 被 表示 成 


多 种 合法 的 代码 点 序列 。 为 了 说 明 这 个 问题 ， 请 看 
下 面 的 示例 : 











>>> s1 = 'Spicy Jalape\uoof1 


0! 
>>> S2 = 'Spicy Jalapen\u0303 


o' 


>>> s1 

'Spicy Jalapeño' 
>>> S2 

'Spicy Jalapeño' 
>>> si == s2 
False 

>>> len(s1) 

14 


>>> len(s2) 


15 
>>> 


这 里 的 文本 “Spicy Jalapefio” LA Py FHF IRE o 
PPH EFIE oC fully 
composed) 形式 (U+00F1) 。 第 二 种 使 用 的 是 拉 
丁字 母 “n” 紧 跟 大 一 个 “~” 组 合 而 成 的 字符 

(U+0303) 。 


对 于 一 个 比较 字符 串 的 程序 来 说 ， 同 一 个 文本 
拥有 多 种 不 同 的 表示 形式 是 个 大 问题 。 为 了 解决 这 
个 问题 ， 应 该 先 将 文本 统一 表示 为 规范 形式 ， 这 可 
以 通过 unicodedata 模 块 来 完成 : 





>>> import unicodedata 
>>> ti = unicodedata.normalize('NFC' 
>>> t2 = unicodedata.normalize('NFC', 
>>> t1 == t2 
True 
>>> print(ascii(t1) ) 

Jalape\xfio' 


= unicodedata.normalize('NFD' 


= unicodedata.normalize('NFD' 
== t4 


>>> print(ascii(t3)) 
"Spicy Jalapen\u03030' 
>>> 








normalize() 的 第 一 个 参数 指定 了 字符 串 应 该 如 





何 完成 规范 表示 。NFC 表 示 字 符 应 该 是 全 组 成 的 
《 即 ， 如 果 可 能 的 话 束 使 用 单个 代码 点 ) 。NFD 表 
示 应 该 使 用 组 合 字符 ， 每 个 字符 应 该 是 能 完全 分 解 
开 的 。 


Python 还 文 持 NFKC 和 NFKD 的 规范 表示 形式 ， 
它们 为 处 理 特定 类 型 的 字符 增加 了 和 祝 外 的 兼容 功 
能 o 例 如 。 








>>> s = '\ufb01 


' # A Single character 

>>> S 

rf 

>>> unicodedata.normalize('NFD', s) 


FL 


# Notice how the combined letters are broken apart here 
>>> unicodedata.normalize('NFKD', s) 

“fy! 

>>> unicodedata.normalize('NFKC', s) 

'fi' 

>>> 





2.9.3 ”讨论 


对 于 任何 需要 确保 以 规范 和 一 致 性 的 方式 处 理 
Unicode 文 本 的 程序 来 说 ， 规 范 化 都 是 重要 的 一 部 
分 。 尤 其 是 在 处 理 用 户 输 入 时 接收 到 的 字符 串 时 ， 
此 时 你 无 法 控制 字符 串 的 编码 形式 ， 那 么 规范 化 文 











本 的 表示 束 巡 得 更 为 重要 了 。 


在 对 文本 进行 过 滤 和 译 化 时 ， 规 范 化 同样 也 后 
据 了 重要 的 部 分 。 例 如 ， 假 设想 从 东 些 文本 中 去 除 
所 有 的 音符 标记 《“ 可 能 是 为 了 进行 搜索 或 匹配 ) : 





>>> ti = unicodedata.normalize('NFD', s1) 
>>> '',join(c for 


in 


t1 if not 


unicodedata.combining(c) ) 
"Spicy Jalapeno' 
>>> 








最 后 一 个 例子 展示 了 unicodedata 模 块 的 男 一 个 
重要 功能 一 一 用 来 检测 字符 是 否 属于 某 个 字符 类 
别 。 使 用 工具 combining() 疯 数 可 对 字符 做 检查 ， 判 
断 它 是 否 为 一 个 组 合 型 字符 。 这 个 模块 中 还 有 一 些 
函数 可 用 来 得 找 字符 类 别 、 检 测 数 字 字 人 符 等 。 


很 显然 ，Unicode 是 一 个 庞大 的 主题 。 要 获得 
更 多 有 天 规范 化 文本 方面 的 参考 信息 ， 可 访问 
http://www.unicode.org/faq/normalization.html 。Ned 


Batchelder 也 在 他 的 网 站 











http://nedbatchelder.com/text/unipain.html 上 对 Python 
中 的 Unicode 处 理 给 出 了 优秀 的 示例 说 明 。 


2.10 用 正则 表达 式 处 理 Unicode 字 
付 
2.10.1 问题 


我 们 正在 用 正则 表达 式 处 理 文 本 ， 但 是 需要 考 
虑 处 理 Unicode 字 符 。 


2.10.2 解决 方案 


默认 情况 下 re 模块 已 经 对 某 些 Unicode 字 符 类 型 
有 J 了 基本 的 认识 。 例 如 ，\d 已 经 可 以 匹配 任意 
Unicode 数 字 字 符 了 : 








>>> import re 
>>> num = re.compile('\d+' ) 
>>> # ASCII digits 


>>> num.match('123' ) 
<_sre.SRE_Match object at 0x1007d9ed0> 


>>> # Arabic digits 


>>> num.match('\u0661\Uu0662\U0663' ) 
<_sre.SRE_Match object at 0x101234030> 
>>> 


[L SöS 


如 果 需 要 在 模式 字符 串 中 包含 指定 的 Unicode 
字符 ， 可 以 针对 Unicode 字 符 使 用 转 义 序列 (例如 
\uUFFFF 或 \UFFFFFFF) 。 比 如 ， 这 里 有 一 个 正则 表 
达 式 能 在 多 个 不 同 的 阿拉 伯 代 码 页 中 匹配 所 有 的 字 
符 : 


>>> arabic = re.compile('[\u0600-\u06ff\U0750 - \U077F\U08ad - \UD8F 
>>> 


当 执 行 匹 配 和 搜索 操作 时 ， 一 个 好 主意 是 首先 
将 所 有 的 文本 都 统一 表示 为 标准 形式 〈 见 2.9 节 ) 。 
但 是 ， 同 样 重 要 的 是 需要 注意 一 些 特殊 情况 。 例 
如 ， 当 不 区 分 大 小 写 的 匹配 和 大 写 转换 (case 
folding) 匹配 联合 起 来 时 ， 考 虑 会 出 现 什 么 行为 : 























>>> pat = re.compile('stra\u00df 


e', re.IGNORECASE ) 
>>> s = 'strak' 
>>> pat.match(s) # Matches 


<_sre.SRE_Match object at 0x10069d370> 
>>> pat.match(s.upper()) # Doesn't match 


>>> s.upper() # Case folds 


' STRASSE ' 
>>> 


2.10.3 iit 


把 Unicode 和 正则 表达 式 混在 一 起 使 用 绝对 是 
个 能 让 人 头痛 欲 裂 的 办 法 。 如 果真 的 要 这 么 做 ， 应 
该 考虑 安装 第 三 方 的 正则 表达 式 库 
(http://pypi.python.org/pypi/regex ) ， 这 些 第 三 方 
库 针 对 Unicode 大 写 转 换 提 供 了 完整 的 支持 ， 还 包 
人 其 他 各 种 有 趣 的 特性 ， 包 括 近 似 匹 配 。 
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2.11.1 问题 








我 们 想 在 字符 串 的 开始 、 结 尾 或 中 间 去 掉 不 需 
要 的 字符 ， 比 如 说 空格 符 。 


2.11.2 解决 方案 


strip() 方 法 可 用 来 从 字符 串 的 开始 和 结尾 处 去 
挤 字 符 。]lstripO0 和 rstripO 可 分 别 从 左 或 从 右 侧 开始 
执行 去 除 字 符 的 操作 。 默 认 情 况 下 这 些 方法 去 除 的 
是 空格 从 ， 但 也 可 以 指定 其 他 的 字符 。 例 如 : 














>>> # Whitespace stripping 
>>> s = ' hello world xn 


>>> s.strip() 
"hello world' 
>>> s.ilstrip() 
"hello world \n' 
>>> s.rstrip() 

' hello world' 
>>> 


>>> # Character stripping 
SS fis bee helLlo=====' 





2.11.3 ”讨论 


当 我 们 读 取 并 整理 数据 以 待 稍 后 的 处 理 时 第 锦 
会 用 到 这 类 strip0 方 法 。 例 如 ， 可 以 用 它们 来 去 把 


空格 、 移 除 引 号 等 。 


需要 注意 的 是 ， 去 除 字符 的 操作 并 不 会 对 位 于 
字符 串 中 间 的 任何 文本 起 作用 。 例 如 ; 








>>> s = ' hello world \n 


>>> s = s.strip() 





如 果 要 对 里 面 的 空格 执行 菜 些 操 作 ， 应 该 使 用 
其 他 技巧 ， 比 如 使 用 replace() 方 法 或 正则 表达 式 蔡 
fe. WU: 


>>> s.replace(' ', '') 
"helloworld' 


>>> import re 
>>> re.sub('\s+', ' ', s) 
"hello world' 


>>> 








我 们 通常 会 遇 到 的 情况 是 将 去 除 字 符 的 操作 同 
某 些 返 代 操 作 结 合 起 来 ， 比 如 说 从 文件 中 读 取 文本 
行 。 如 果 是 这 样 的 话 ， 那 就 到 了 生成 占 表 达 式 大 显 
喘 手 的 时 修了。 例如 : 
with open(filename) as f: 


lines = (line.strip() for line in f) 
for line in lines: 





这 里 ， 表 达 式 lines = (line.strip() for line in f) [J 
作用 是 完成 数据 的 转换 (让 。 它 很 高 效 ， 因 为 这 里 
并 没有 先 将 数据 读 取 到 任何 形式 的 临时 列表 中 。 它 





只 是 创建 一 个 迭代 器 ， 在 所 有 产生 出 的 文本 行 上 都 
会 执行 strip 操 作 。 

对 于 更 高 级 的 strip 操 作 ， 应 该 转 而 使 用 
translate() 方 法 。 请 参见 下 一 市 以 获得 进一步 的 细 
oer 


2.12 ”文本 过 滤 和 清理 
2.12.1 问题 


某 些 无 聊 的 脚本 小 子 在 Web 页 面 表单 中 填 入 
了 “py¥th6ii* 这 样 的 文本 ， 我 们 想 以 某 种 方式 将 其 清 
TE fA 


2.12.2 ”解决 方案 


文本 过 滤 和 清理 所 闻 辣 的 范围 非常 广泛 ， 涉 及 
文本 解析 和 数据 处 理 方面 的 问题 。 在 非常 徐 单 的 层 
次 上 ， 我 们 可 能 会 用 基本 的 字符 串 函 数 《〈 例 如 
str.UpperO0 和 str.lowerO ) 将 文本 转换 为 标准 形式 。 
简单 的 蔡 换 操作 可 通过 str.replace0 或 re.sub0) 来 完 
成 ， 它 们 把 重点 放 在 移 除 或 修改 特定 的 字符 序列 
上 。 也 可 以 利用 unicodedata.normalize0) 来 规范 化 文 
本 ， 如 2.9 节 所 示 。 


然而 我 们 可 能 想 更 进一步 。 比 方 说 也 许 想 清除 
整个 范围 内 的 字符 ， 或 者 去 掉 音 符 标 志 。 要 完成 这 
些 任务 ， 可 以 使 用 第 被 忽视 的 str.translate() 方 法 。 
为 了 说 明 其 用 法 ， 假 设 有 如 下 这 上 段 混乱 的 字符 串 : 














>>> s = 'python\f 


is\t 


awesome\r\n 
>>> S 


'python\xOcis\tawesome\r\n' 
>>> 





第 一 步 是 清理 空格 。 要 做 到 这 步 ， 先 建立 一 个 
小 型 的 转换 表 ， 然 后 使 用 translate() 方 法 : 





>>> remap = { 


') : None # Deleted 


} 

>>> a = s.translate(remap) 
>>> a 

‘python is awesome\n' 

>>> 





可 以 看 到 ， 次 似 Xt 和 xf 这 样 的 空格 符 已 经 被 重新 
映 冉 成 一 个 单独 的 空格 。 回 车 符 Y 已 经 完全 被 缸 除 
JE I o 


可 以 利用 这 种 重新 映射 的 思想 进一步 构建 出 更 
加 庞大 的 转换 表 。 例 如 ， 我 们 把 所 有 的 Unicode 组 
合 字符 部 去 挥 : 











>>> import unicodedata 

>>> import sys 

>>> cmb_chrs = dict.fromkeys(c for c in range(sys.maxunicode) 
oe if unicodedata.combining(chr(c 


>>> b = unicodedata.normalize('NFD', a) 
>>> b 


‘python is awesome\n' 

>>> b.translate(cmb_chrs) 
‘python is awesome\n' 

>>> 





在 这 个 例子 中 ， 我 们 使 用 dict.fromkeys0) 方 法 构 


建 了 一 个 将 每 个 Unicode 组 合 字符 都 映射 为 None 的 
字典 。 

原始 输入 会 通过 unicodedata.normalize() 方 法 转 
换 为 分 离 形式 ， 然 后 再 明 过 translate() 方 法 删除 所 有 
的 重 首 符 写 。 我 们 也 可 以 利用 相似 的 技术 来 去 挥 其 
他 类 型 的 字符 (例如 控制 字符 〉。 


下 面 来 看 另 一 个 例子 。 这 里 有 一 张 转 换 表 将 所 
有 的 Unicode 十 进 制 数字 字符 映射 为 它们 对 应 的 
ASCII 版 本 : 














>>> digitmap = { c: ord('0') + unicodedata.digit(chr(c) ) 
eek for 


c in 


range(sys.maxunicode ) 
iik if 


unicodedata.category(chr(c)) == 'Nd' } 


>>> len(digitmap) 
460 
>>> # Arabic digits 


>>> x = '\u0661\U0662\uU0663 


>>> x.translate(digitmap ) 
'123' 


>>> 








为 一 种 用 来 消 理 文本 的 技术 涉及 LO 解码 和 编 
公函 数 。 大 致 思路 是 首先 对 文本 做 初步 的 清理 ， 然 
后 通过 结合 encode() 和 decode() 操 作 来 修改 或 清理 文 
本 。 示 例如 下 : 


>>> a 
'python is awesome\n' 

>>> b = unicodedata.normalize('NFD', a) 

>>> b.encode('ascii', 'ignore').decode('ascii' ) 


‘python is awesome\n' 
>>> 








这 里 的 normalize() 方 法 先 对 原始 文本 做 分 解 操 
作 。 后 续 的 ASCII 编 码 / 解 码 只 是 简单 地 一 次 性 丢弃 
所 有 不 需要 的 字符 。 很 显然 ， 这 种 方法 只 有 当 我 们 
的 最 终 目 标 就 是 ASCII 形 式 的 文本 时 才 有 用 。 








2.12.3 ”讨论 





文本 过 小 和 清理 的 一 个 主要 问题 束 是 运行 时 的 
性 能 。 一 般 来 说 操作 越 简单 ， 运 行 得 就 越 快 。 对 于 
简单 的 替换 操作 ， 用 str.replace(0) 通 常 是 最 快 的 方式 


即使 必须 多 次 调用 它 也 是 如 此 。 比 方 说 如 果 要 
清理 挥 空格 全， 可 以 编写 如 下 的 代码 : 





def 


clean_spaces(s): 
s = s.replace('\r 


) 
s = s.replace('\t 


s = s.replace('\f 


了 
return 


S 








如 果 试 看 调用 它 ， 束 会 发 现 这 比 使 用 translate() 
或 者 正则 表达 式 的 方法 要 快 得 多 。 


另 一 方面 ， 如 果 需 要 做 任何 高 级 的 操作 ， 比 如 
字符 到 字符 的 重 映 射 或 删除 ， 那 么 translate0) 方 法 还 
是 非 芝 快 的 。 


从 了 整 体 来 看 ， 我 们 应 该 在 具体 的 应 用 中 去 进 一 
步 揣摩 性 能 方面 的 问题 。 不 和 的 是 ， 想 在 技术 上 给 





出 一 条 “ 放 之 四 海 而 缘 稚 ?的 建议 是 不 可 能 的 ， 所 以 
应 该 答 试 多 种 不 同 的 方法 ， 然 后 做 性 能 统计 分 析 。 

尺 省 本 节 的 内 容 主要 关注 的 是 文本， 但 类 似 的 
技术 也 同样 适用 于 字 市 对 象 (byte〉， 这 包括 简单 
IPR. MUERTE AIA TK 








2.13 WMA 
2.13.1 问题 


我 们 需要 以 人 菏 种 对 齐 方式 将 文本 做 格式 化 处 
H, 


2.13.2 ”解决 方案 


对 于 基本 的 字符 串 对 齐 要 求 ， 可 以 使 用 字符 串 
的 jjust0、zrjust0 和 center0 方 法 。 示 例如 下 : 








>>> text = 'Hello World' 
>>> text.ljust(20) 
"Hello World ' 

>>> text.rjust(20) 


Hello World' 
>>> text.center(20) 
Hello World ' 
>>> 





所 有 这 些 方法 都 可 接受 一 个 可 选 的 填充 字符 。 
例如 : 





>>> text.rjust(20, '=') 
'=s========Hello World' 
>>> text.center(20,'*') 
LARE Hello World*****' 


>>> 


format() PA BUH, AY DAF ESE BOT SF AY CE 
务 。 需 要 做 的 融 是 合理 利用 <'、'>'， 或 和 字符 以 及 
一 个 期 望 的 宽度 值 站。 例如: 


>>> format(text, '>20') 
i Hello World' 
>>> format(text, '<20') 
"Hello World ' 

>>> format(text, '20') 


Hello World ' 
>>> 





WARE EAE ZEAE, AY ETE 
字符 之 前 指定 : 


>>> format(text, '=>20s') 

Hello World' 
>>> format(text, '*A20s') 
'****Hello World*****'! 
>>> 





当 格 式 化 多 个 值 时 ， 这 些 格式 化 代码 也 可 以 用 
在 format() 方 法 中 。 例 如 : 





>>> '{:>10s} {:>10s}'.format('Hello', 'World') 
Hello World' 


>>> 


pO 


formatO 的 好 处 之 一 是 它 并 不 是 特定 于 字符 串 
的 。 它 能 作用 于 任何 值 ， 这 使 得 它 更 加 通用 。 例 
如 ， 可 以 对 数字 做 格式 化 处 理 : 











>>> x = 1.2345 

>>> format(x, '>10') 
1.2345' 

>>> format(x, '\10.2f') 


1.23 ' 
>>> 





2.13.3 iit 


在 比较 老 的 代码 中 ， 通 常会 及 现 % 操 作 符 用 来 
格式 化 文本 。 例 如 : 


>>> '%-20s' % text 
"Hello World ' 

>>> '%20s' % text 

i Hello World' 





>>> 








但 是 在 新 的 代码 中 ， 我 们 应 该 会 更 钟情 于 使 用 
formatO 函 数 或 方法 。format(0 比 % 操 作 符 提供 的 功 
能 要 强大 多 了 。 此 外 ，formatO 可 作用 于 任意 类 型 
的 对 象 ， 比 字符 串 的 jjust0、rjustO 以 及 center(0) 方 法 





要 更 加 通用 。 


想 了 解 formatO 函 数 的 所 有 功能 ， 请 参考 Python 
的 在 线 手册 http://docs.python.org/3/library/ string. 
html#formatspec 。 


2.14 字符 串 连 接 及 合并 
2.14.1 问题 


我 们 想 将 许多 小 字符 串 合 并 成 一 个 大 的 字符 








2.14.2 ”解决 方案 


如 果 想 要 合并 的 字符 串 在 一 个 序列 或 可 迭代 对 
象 中 ， 那 么 将 它们 合并 起 来 的 最 快 方法 束 是 使 用 
join0) 方 法 。 示 例如 下 : 








>>> parts = ['Is', 'Chicago', 'Not', 'Chicago?' ] 
>>> ' ',join(parts) 

'Is Chicago Not Chicago?' 

>>> ','.join(parts) 

'Is, Chicago, Not, Chicago? ' 


>>> '', join(parts) 
'IsChicagoNotChicago? ' 
>>> 











初 看 上 去 语法 可 能 显得 有 些 怪 异 ， 但 是 join0O 操 
作 其 实 是 字符 串 对 象 的 一 个 方法 。 这 么 设计 的 部 分 
原因 是 因为 想 要 合并 在 一 起 的 对 象 可 能 来 目 于 各 种 
不 同 的 数据 序列 ， 比 如 列表 、 元 组 、 字 典 、 文 件 、 




















集合 或 生成 器 ， 如 果 单 独 在 每 一 种 序列 对 象 中 实现 
一 个 join0 方 法 就 显得 太 见 余 了。 因此 只 需要 指定 想 
要 的 分 隔 字 符 串 ， 然 后 在 字符 串 对 象 上 使 用 join() 方 
法 将 文本 片段 粘 合 在 一 起 就 可 以 了 。 














如 果 只 是 想 连 接 一 些 字 符 串 ， 一 般 使 用 + 操作 
符 就 足够 完成 任务 了 : 


>>> a = 'Is Chicago' 

>>> b = 'Not Chicago?' 
>>> at ' ' +b 

'Is Chicago Not Chicago?' 


>>> 








针对 更 加 复 洒 的 字符 串 格 式 化 操作 ，+ 操 作 符 
同样 可 以 作为 format0O) 的 亚 代 ， 很 好 地 完成 任务 : 


>>> print 


('{} {}'.format(a,b)) 
Is Chicago Not Chicago? 
>>> print 


(a5 0" eb) 
Is Chicago Not Chicago? 
>>> 








如 果 打 算 在 源 代码 中 将 字符 串 字面 值 合并 在 一 


起 ， 可 以 简单 地 将 它们 排列 在 一 起 ， 中 间 不 加 + 操 
作 符 。 示 例如 下 : 


>>> a = 'Hello' 'World' 
>>> a 
"Helloworld' 


>>> 





2.14.3 ”讨论 








FAT ERR TE LA) HEA ERLA rA T] 
EF RE A fre RE AA, ETET A ae SS EIR 
个 问题 上 做 出 错误 的 编程 选择 ， 使 得 他 们 的 代码 性 


能 党 到 影 啊 。 


最 重要 的 一 点 是 要 意识 到 使 用 + 操作 符 做 大 量 
的 字符 串 连 接 是 非 第 低 效 的 ， 原 因 是 由 于 内 存 找 贝 
和 垃圾 收集 产生 的 影响 。 特 别 是 你 绝 不 会 想 写 出 这 




















样 的 字符 串 连 接 代码 : 





这 种 做 法 比 使 用 join0 方 法 要 慢 上 许多 。 主 要 是 
因为 每 个 += 操 作 都 会 创建 一 个 新 的 字符 串 对 象 。 我 
们 最 好 先 收集 所 有 要 连接 的 部 分 ， 最 后 再 一 次 将 它 
们 连接 起 来 。 

ASFA AES CARER SEATS) 是 利用 生成 


RIAI ILII) 在 将 数据 转换 为 字符 串 的 同 
时 完成 连接 操作 。 示 例如 下 : 





>>> data = ['ACME', 50, 91.1] 
>>> ',',join(str(d) for 


d in 


data) 
' ACME, 50,91.1' 
>>> 








对 于 不 必要 的 字符 串 连 接 操作 也 要 引起 重视 。 
有 时 候 在 技术 上 并 非 必 需 的 时 候 ， 程 序 员 们 也 会 生 
Pes 








print 


(':'.join([a, b, c])) # Still ugly 
print 
(a, b, c, sep=':') # Better 








REFIT E E ORR ET Er HE OR DIN BR i BS 
对 应 用 做 仔细 的 分 析 。 例 如 ， 考 虑 如 下 两 段 代 码 : 


# Version 1 (string concatenation) 
f.write(chunk1 + chunk2 

# Version 2 (separate I/O operations) 
f.write(chunk1) 


f.write(chunk2) 





如 果 这 两 个 字符 串 都 很 小 ， 那 么 第 一 个 版 本 的 
代码 能 带 来 更 好 的 性 能 ， 这 是 因为 执行 一 次 IO 系 
统 调用 的 固有 开销 就 很 高 。 另 一 方面 ， 如 果 这 两 个 
字符 串 都 很 大 ， 那 么 第 二 个 版 本 的 代码 会 更 加 高 
效 。 因 为 这 里 避免 了 创建 大 的 临时 结果 ， 也 没有 对 
大 块 的 内 存 进 行 拷贝 。 这 里 必须 再 次 强调 ， 你 需要 
对 自己 的 数据 做 分 析 ， 以 此 才能 判定 哪 一 种 方法 可 





最 后 但 也 十 最 重要 的 是 ， 如 朱 我 们 编号 的 代码 
要 从 许多 短 字 和 从 串 中 构建 输出 ， 则 应 该 考虑 编写 生 
成 织 函 数 ， 通 过 yield 关 键 字 生成 字符 串 厂 段 。 示 例 
如 下 : 








yield 


'Chicago' 
yield 


'Not' 
yield 


'Chicago?' 





天 于 这 种 方法 有 一 个 有 趣 的 事实 ， 那 就 是 它 不 
会 假设 产生 的 请 段 要 如 何 组 合 在 一 起 。 比 如 说 可 以 
用 join0 将 它们 简单 的 连接 起 来 : 


text = ''.join(sample() ) 





po 


或 者 ， 也 可 以 将 这 些 片 段 重 定 同 到 IO: 


f.write(part) 





又 或 者 我 们 能 以 混合 的 方式 将 MO 操作 智能 化 
地 结合 在 一 起 : 





def 


combine(source, maxsize): 
parts = [] 
size = 0 
for 


part in 


source: 
parts.append(part ) 
size += len(part) 
if 


size > maxsize: 
yield 


'' join(parts) 


parts = [] 


size = 0 
yield 


'' join(parts) 


for 


part in 


combine(sample(), 32768): 


f.write(part) 





关键 在 于 这 里 的 生成 占 函 数 并 不 需要 知道 精确 
的 细节 ， 它 只 是 产生 片段 而 已 。 


2.15 ”给 字符 串 中 的 变量 名 做 插值 
处 理 
2.15.1 问题 


我 们 想 创建 一 个 字符 串 ， 其 中 通 入 的 变量 名 称 
会 以 变量 的 字符 串 值 形式 闭 换 掉 。 








2.15.2 ”解决 方案 


python 并 不 直接 支持 在 字符 串 中 对 变量 做 简单 
的 值 蔡 换 。 但 是 ， 这 个 功能 可 以 通过 字符 串 的 
format() 方 法 近似 模拟 出 来 。 示 例如 下 : 





>>> s = '{name} has {n} messages.' 
>>> s.format(name='Guido', n=37) 


"Guido has 37 messages. ' 
>>> 








另 一 种 方式 是 ， 如 果 要 被 蔡 换 的 值 确 实 能 在 变 
量 中 找到 ， 则 可 以 将 format_mapO0 和 varsO 联 合 起 来 
使 用 ， 示 例如 下 : 


>>> name = 'Guido' 
>>> n = 37 


>>> s.format_map(vars()) 
‘Guido has 37 messages. ' 
>>> 





有 关 vars0 的 一 个 微妙 的 特性 是 它 也 能 作用 于 
类 实例 上 。 比 如 : 


>>> class Info: 
def _ init__(self, name, n): 
self.name = name 
self.n =n 


>>> a = Info('Guido', 37) 

>>> s.format_map(vars(a) ) 
"Guido has 37 messages. ' 

>>> 





而 format() 和 format_map() 的 一 个 缺点 则 是 没 法 
优雅 地 处 理 缺 少 某 个 值 的 情况 。 例 如 : 


>>> s.format(name='Guido' ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
KeyError: 'n' 


>>> 











避免 出 现 这 种 情况 的 一 种 方法 就 是 单独 定义 一 
个 带 有 __missing_ (0) 方 法 的 字典 类 ， 示 例如 下 : 


class safesub(dict): 


def _ missing (self, key): 
return '{' + key + '}' 


现在 用 这 个 类 来 包装 传 给 format_map0 的 输入 
参数 : 


>>> del 


n # Make sure n is undefined 
>>> s.format_map(safesub(vars())) 


"Guido has {n} messages. ' 
>>> 





GORA H OERI Ey BY e ÍT X LEG 
Be, WU ay UK R He AE E E ee ZE PN A T 
能 函数 内 ， 这 里 要 采用 一 种 称 之 为 "frame hack” HJ 
技巧 BSI。 示例 如 下 : 


import sys 


def sub(text): 


return text.format_map(safesub(sys._getframe(1).f_locals) ) 





ME, REID DAES TS T : 


>>> name = 'Guido' 
>>> n = 37 
>>> print 


(sub('Hello {name}') ) 
Hello Guido 
>>> print 


(sub('You have {n} messages. ')) 
You have 37 messages. 
>>> print 


(sub('Your favorite color is {color}')) 
Your favorite color is {color} 
>>> 





2.15.3 iit 


多 年 来 ， 由 于 Python 缺乏 真正 的 变量 插值 功 
能 ， 由 此 产生 了 各 种 解决 方案 。 作 为 本 市 中 已 给 出 
的 解决 方案 的 蔡 代 ， 有 时候 我 们 会 看 到 类 似 下 面 代 








人 码 中 的 字符 蝇 格 式 化 操作 : 


>>> name = 'Guido' 

>>> n = 37 

>>> '%(name) has %(n) messages.' % vars() 
‘Guido has 37 messages. ' 


>>> 





我 们 可 能 还 会 看 到 模板 字符 串 (template 
string) 的 使 用 : 


>>> import string 

>>> s = string.Template('$name has $n messages. ' ) 
>>> s.substitute(vars()) 

"Guido has 37 messages. ' 


>>> 





但 是 ，formatO0 和 format_map0 方 法 比 上 面 这 些 
符 代 方案 都 要 更 加 现代 化 ， 我 们 应 该 将 其 作为 首 
选 。 使 用 formatO 的 一 个 好 处 是 可 以 同时 得 到 所 有 
关于 字符 串 格 式 化 方面 的 功能 “对齐 、 填 充 、 数 值 
格式 化 等 ) ， 而 这 些 功能 在 字符 串 模板 对 象 上 是 不 
可 能 做 到 的 。 


在 本 节 的 部 分 内 容 中 还 提 到 了 一 些 有 趣 的 高 级 
PVE. AP HLS HH Hee AY A ROE missing 0 方法 可 用 
来 处 理 缺 少 值 时 的 行为 。 在 safesub 类 中 ， 我 们 将 访 
方法 定义 为 将 缺失 的 值 以 占 位 符 的 形式 返回 ， 因 此 
这 里 不 会 抛 出 KeyError 异 第 ， 缺 少 的 那个 值 会 出 现 
在 最 后 生成 的 字符 串 中 (可 能 对 调试 有 些 帮 助 )。 


sub() 函 数 使 用 了 sys._getframe(1) 来 返回 调用 方 
的 栈 帧 。 通 过 访问 属性 f_ locals 来 得 到 局 部 变量 。 无 
需 疆 言 ， 在 大 部 分 的 代码 中 都 应 该 避免 去 和 栈 帧 打 
交道 ， 但 是 对 于 类 似 完成 字符 串 答 换 功 能 的 函数 来 
说 ， 这 会 是 有 用 的 。 插 一 句 题 外 话 ， 值 得 指出 的 是 
f locals 是 一 个 字典 ， 它 完成 对 调用 函数 中 局 部 变量 
的 拷贝 。 尽 管 可 以 修改 f_locals 的 内 容 ， 可 是 修改 后 

















并 不 会 产生 任何 持续 性 的 效果 。 因 此 ， 尺 省 访问 不 
同 的 栈 巾 可 能 看 起 来 是 很 邪恶 的 ， 但 古 想 意外 地 覆 
蘑 或 修改 调用 方 的 本 地 环境 也 是 不 可 能 的 。 








2.16 ”以 固定 的 列 数 重 新 格式 化 文 
本 


2.16.1 问题 


我 们 有 一 些 很 长 的 字符 串 ， 想 将 它们 重新 格式 
化 ， 使 得 它们 能 按照 用 户 指定 的 列 数 来 显示 。 


2.16.2 ”解决 方案 


可 以 使 用 textwrap 模 块 来 重新 格式 化 文本 的 输 
出 。 例 如 ， 假 设 有 如 下 这 段 长 字符 串 : 





s = "Look into my eyes, look into my eyes, the eyes, the eyes, \ 


the eyes, not around the eyes, don't look around the eyes, \ 


look into my eyes, you're under." 








这 里 可 以 用 textwrap 模 块 以 多 种 方式 来 重新 格 
式 化 字符 串 : 


>>> import textwrap 

>>> print(textwrap.fill(s, 70)) 

Look into my eyes, look into my eyes, the eyes, the eyes, the eyrt 
not around the eyes, don't look around the eyes, look into my eys 
you're under. 


>>> print(textwrap.fill(s, 40)) 

Look into my eyes, look into my eyes, 
the eyes, the eyes, the eyes, not around 
the eyes, don't look around the eyes, 
look into my eyes, you're under. 


>>> print(textwrap.fill(s, 40, initial_indent=' ')) 


Look into my eyes, look into my 

eyes, the eyes, the eyes, the eyes, not 
around the eyes, don't look around the 

eyes, look into my eyes, you're under. 


>>> print(textwrap.fill(s, 40, subsequent_indent=' ')) 
Look into my eyes, look into my eyes, 

the eyes, the eyes, the eyes, not 

around the eyes, don't look around 

the eyes, look into my eyes, you're 

under. 





2.16.3 iit 


textwrap 模 块 能 够 以 简单 直接 的 方式 对 文本 格 
式 做 整理 使 其 适合 于 打印 一 一 尤其 古 当 希望 输出 结 
条 能 很 好 地 显示 在 终端 上 时 。 关 于 终端 的 尺寸 大 
小 ， 可 以 通过 os.get_ terminal_size() 来 获取 。 例 如 : 

















>>> import os 

>>> os.get_terminal_size().columns 
80 

>>> 


| 


fill0) 方 法 还 有 一 些 和 额外 的 选项 可 以 用 来 控制 如 
何 处 理 制 表 符 、 句 号 等 。 请 参阅 
textwrap.TextWrapper 类 的 文档 
Chttp://docs.python.org/3.3/library/ textwrap. html# 
text wr ap.TextWrapper 〉 以 获得 进一步 的 细节 。 





2.17 ”在 文本 中 处 理 HTML 和 XML 
实体 


2.17.1 问题 


我 们 想 将 &entity 或 &#code 这 样 的 HTML 或 
XML 实体 蔡 换 为 它们 相对 应 的 文本 。 或 者 ， 我 们 需 
要 生成 文本 ， 但 是 要 对 特定 的 字符 (比如 <,> 或 &) 
做 转 义 处 理 。 








2.17.2 ”解决 方案 


如 果 要 生成 文本 ， 使 用 html.escapeO 函 数 来 完 
成 蔡 换 <or> 这 样 的 特殊 字符 相对 来 说 是 比较 容易 
的 。 例 如 : 











>>> s = 'Elements are written as "<tag>text</tag>". ' 
>>> import html 


>>> print 


(s) 
Elements are written as "<tag>text</tag>". 
>>> print 


(html.escape(s) ) 
Elements are written as "<tag>text</tag>". 


>>> # Disable escaping of quotes 


>>> print 


(html.escape(s, quote=False) ) 
Elements are written as "<tag>text</tag>". 
>>> 





如 采 要 生成 ASCII 广 本， 并 且 想 针对 非 ASCII 字 
符 将 它们 对 应 的 字符 编码 实体 葡 入 到 文本 中 ， 可 以 
在 各 种 同 WO 相 关 的 函数 中 使 用 
errors='Xmlcharrefreplace' 参 数 来 实现 。 示 例如 下 : 








>>> Ss = 'Spicy Jalapen~o' 
>>> s.encode('ascii', errors='xmlcharrefreplace' ) 
b'Spicy Jalape&#241;0' 


>>> 











BEF RSC ARTA SER, ADS BLAS Ta] TE 
如 果实 际 上 是 在 处 理 HTML 或 XML， 首 先 应 该 尝试 
使 用 一 个 合适 的 HIML 或 XML 解析 器 。 一 般 来 说 ， 
这 些 工 具 在 解析 的 过 程 中 会 上 自动 处 理 相 关 值 的 蔡 
换 ， 而 我 们 完全 无 需 为 此 操心 。 


如 果 由 于 某 种 原因 在 得 到 的 文本 中 带 有 一 些 实 

















体 ， 而 我 们 想 手工 将 它们 痊 换 掉 ， 通 常 可 以 利用 各 
种 HTML 或 XML 解析 器 自 带 的 功能 函数 和 方法 来 完 
成 。 示 例如 下 : 





>>> s = 'Spicy "Jalapefio&quot.' 
>>> from html.parser import 


HTMLParser 

>>> p = HTMLParser() 
>>> p.unescape(s) 
"Spicy "Jalapen-~o".' 
>>> 


>>> t = 'The prompt is >>>' 


>>> from xml.sax.saxutils import 


unescape 

>>> unescape(t) 
'The prompt is >>>' 
>>> 





2.17.3 ”讨论 


在 生成 HTML 或 XML 文 档 时 ， 适 当地 对 特殊 字 
符 做 转 义 处 理 名 种 是 个 容易 被 忽视 的 细节 。 尤 其 是 
当 上 自己 用 printO 或 其 他 一 些 基 本 的 字符 串 格 式 化 函 
数 来 产生 这 类 输出 时 更 是 如 此 。 人 简单 的 解决 方案 是 
使 用 像 html.escapeO 这 样 的 工具 函数 。 


如 采 需 要 反 过 来 处 理 文本 《〈 即 ， 将 HTML 或 














XML 实体 转换 成 对 应 的 字符 ) ， 有 许多 像 
xml.Sax.Saxutils.unescapeO 这样 的 工具 函数 能 帮 上 
忙 。 但 是 ， 我 们 需要 仔细 考察 一 个 合适 的 解析 器 应 
该 如 何 使 用 。 例 如 ， 如 果 是 处 理 HIML 或 XML， 像 
html.parser 或 xml.etree.ElementTree 这 样 的 解析 模块 
应 该 已 经 解决 了 有 关 葵 换文 本 中 实体 的 细 贡 问题。 





2.18 ”文本 分 词 
2.18.1 问题 
我 们 有 一 个 字符 串 ， 想 从 左 到 右 将 它 解 析 为 标 


wyi (stream of tokens) 。 





2.18.2 ”解决 方案 
假设 有 如 下 的 字符 串 文 本 : 


text = 'foo = 23 + 42 * 10' 





要 对 字符 串 做 分 词 处 理 ， 需 要 做 的 不 仅仅 只 是 
匹配 模式 。 我 们 还 需要 有 茶 种 方法 来 识别 出 借 却 的 
类 型 。 例 如 ， 我 们 可 能 想 将 字符 串 转 换 为 如 下 的 序 
列 对 : 





tokens = [('NAME', 'foo'), ('EQ','='), ('NUM', '23'), ('PLUS', '+ 
('NUM', '42'), ('TIMES', '*'), ('NUM', 10')] 





要 完成 这 样 的 分 词 处 理 ， 第 一 步 是 定义 出 所 有 
可 能 的 标记 ， 包 括 空 格 。 这 可 以 通过 正则 表达 式 中 





的 命名 捕获 组 来 实现 ， 示 例如 下 : 


import re 

NAME = r'(?P<NAME>[a-ZzA-Z_][a-zA-Z_0-9]*)' 
NUM = r'(?P<NUM>\d+) ' 

PLUS = r'(?P<PLUS>\+)' 

TIMES = r'(?P<TIMES>\*)' 

EQ = r'(?P<EQ>=)' 


ws = r'(?P<WS>\s+)' 


master_pat = re.compile('|'.join([NAME, NUM, PLUS, TIMES, EQ, WS 








在 这 些 正 则 表达 式 模 式 中 ， 形 如 ? 
P<TOKENNAME> 这 样 的 约定 是 用 来 将 名 称 分 配给 
该 模式 的 。 这 个 我 们 稍 后 会 用 到 。 


接 下 来 我 们 使 用 模式 对 象 的 scanner() 方 法 来 完 
成 分 词 操 作 。 访 方法 会 创建 一 个 扫描 对 象 ， 在 给 定 
的 文本 中 重复 调用 match()， 一 次 匹配 一 个 模式 。 下 
面 这 个 交互 式 示例 展示 了 扫 拉 对象 是 如 何 工 作 的 : 























>>> scanner = master_pat.scanner('foo = 42') 
>>> Scanner .match( ) 

<_sre.SRE_Match object at 0x100677738> 
>>> _.lastgroup, _.group() 

('NAME', 'foo') 

>>> Scanner .match( ) 

<_sre.SRE_Match object at 0x100677738> 
>>> _.lastgroup, _.group() 

('ws', 1 a) 

>>> scanner.match() 

<_sre.SRE_Match object at 0x100677738> 
>>> _.lastgroup, _.group() 


>>> Scanner .match( ) 

<_sre.SRE_Match object at 0x100677738> 
>>> _.lastgroup, _.group() 

('ws', 1 ') 

>>> scanner.match() 

<_sre.SRE_Match object at 0x100677738> 
>>> _.lastgroup, _.group() 

('NUM', '42') 

>>> Scanner .match( ) 

>>> 





要 利用 这 项 技术 并 将 其 转化 为 代码 ， 我 们 可 以 





做 些 清理 工作 然后 轻松 地 将 其 包含 在 一 个 生成 右 函 
数 中 ， 示 例如 下 : 








from collections import namedtuple 


Token = namedtuple('Token', ['type', 'value']) 
def generate_tokens(pat, text): 
scanner = pat.scanner(text) 
for m in iter(scanner.match, None): 
yield Token(m.lastgroup, m.group()) 


# Example use 


for tok in generate_tokens(master_pat, 'foo = 42'): 
print(tok) 


# Produces output 


# Token(type='NAME', value='foo' ) 


# Token(type='WS', value=' ') 


# Token(type='EQ', value='=") 


# Token(type='WS', value=' ') 


# Token(type='NUM', value='42' ) 





如 果 想 以 东 种 方式 对 标记 流 做 过 滤 处 理 ， 要 人 么 
ENEZ WA ae PA, EAE a a RETA TL 





a aia 
示 记 。 





tokens = (tok for 


tok in 


generate_tokens(master_pat, text) 
if 


tok.type != 'WS') 
for 


tok in 


tokens: 
print 


(tok) 





2.18.3 iit 








对 于 更 加 高 级 的 文本 解析 ， 第 一 步 往往 是 分 词 
处 理 。 要 使 用 上 面 展 示 的 扫描 技术 ， 有 几 个 重要 的 
细节 需要 牢记 于 心 。 第 一 ， 对 于 每 个 可 能 出 现在 输 
入 文本 中 的 文本 序列 ， 都 要 确保 有 一 个 对 应 的 正则 
表达 式 模 式 可 以 将 其 识别 出 来 。 如 果 友 现 有 任何 不 
能 匹配 的 文本 ， 扫 描 过 程 束 会 集 止 。 这 就 古 为 什么 
有 必要 在 上 面 的 示例 中 指定 空格 标记 (WS) 。 


这 些 标记 在 正则 表达 式 〈( 即 
re.compile(''.join(INAME, NUM, PLUS, TIMES, EQ, 
WSD) 中 的 顺序 同样 也 很 重要 。 当 进行 匹配 时 ，re 
模块 会 按照 指定 的 顺序 来 对 模式 做 匹配 。 因 此 ， 如 
果 碰 巧 某 个 模式 是 另 一 个 较 长 模式 的 子 串 时 ， 就 必 
须 确保 较 长 的 那个 模式 要 先 做 匹配 。 示 例如 下 : 

















LT = r'(?P<LT><)' 
LE = r'(?P<LE><=)' 
EQ = r'(?P<EQ>=)' 


master_pat = re.compile('|'.join([LE, LT, EQ])) # Correct 


# master_pat = re.compile('|'.join([LT, LE, EQ])) # Incorrect 





第 2 个 模式 是 错误 的 (注释 掉 的 那 一 行 〉， 
为 这 样 会 把 文本 '<=' 匹 配 为 LT C<) KRA 
EQ C=") ， 而 没有 匹配 为 单独 的 标记 LE ('<=') , 
这 与 我 们 的 本 意 不 符 。 


最 后 也 最 重要 的 是 ， 对 于 有 可 能 形成 子 串 的 模 
式 要 多 加 小 心 。 例 如 ， 假 设 有 如 下 两 种 模式 : 


PRINT 
NAME 


= r'(P<PRINT>print)' 
= r'(P<NAME>[a-ZA-Z_][a-zA-Z_0-9]*)' 


master_pat = re.compile('|'.join([PRINT, NAME])) 


for tok in generate_tokens(master_pat, 'printer'): 
print(tok) 


# Outputs : 


# Token(type='PRINT', value='print') 


# Token(type='NAME', value='er') 





对 于 更 加 高 级 的 分 词 处 理 ， 我 们 应 该 去 看 看 像 
PyParsing 或 PLY 这 样 的 包 。 有 关 PLY 的 例子 将 在 下 
一 节 中 讲解 。 





2.19 ”编写 一 个 答 单 的 递归 下 降解 
MT es 


2.19.1 问题 


我 们 需要 根据 一 组 语法 规则 来 解析 文本 ， 以 此 
执行 相应 的 操作 或 构建 一 个 抽象 语法 树 来 表示 输 
入 。 语 法 规则 很 简单 ， 因 此 我 们 倾 问 于 目 己 编写 解 
析 强 而 不 是 使 用 菏 种 解析 融 框 染 。 














2.19.2 ”解决 方案 


在 这 个 问题 中 ， 我 们 把 重点 放 在 根据 特定 的 语 
法 来 解析 文本 上 。 要 做 到 这 些 ， 应 该 以 BNF 或 
EBNF 的 形式 定义 出 语法 的 正式 规格 。 比 如 ， 对 于 
简单 的 算术 运算 表达 式 ， 语 法 看 起 来 是 这 样 的 : 

















expr ::= expr + term 
| expr - term 
| term 

term ::= term * factor 
| term / factor 





又 或 者 以 EBNF 的 形式 定义 为 如 下 形式 : 


expr ::= term { (+|-) term }* 
term ::= factor { (*|/) factor }* 
factor ::= ( expr ) 


| NUM 





在 EBNF 中 ， 部 分 包括 在 { .… }* 中 的 规则 是 可 
选 的 。* 童 味 痢 零 个 或 更 多 重复 项 (和 在 正则 表达 
式 中 的 意义 相同 ) 。 


现在 ， 如 果 我 们 对 BNF 还 不 熟悉 的 话 ， 可 以 把 
它 看 做 是 规则 答 换 或 取代 的 一 种 规范 形式 ， 左 侧 的 
符 亏 可 以 被 右 侧 的 符号 所 取代 《反之 亦 然 ) 。 一 般 
来 说 ， 在 解析 的 过 程 中 我 们 会 尝试 将 输入 的 文本 同 
语法 做 匹配 ， 通 过 BNF 来 完成 各 种 替换 和 扩展 。 为 
了 说 明 ， 假 设 正 在 解析 一 个 类 似 于 3 + 4* 5 这 样 的 
表达 式 。 这 个 表达 式 首 先 应 该 被 分 解 为 标记 流 ， 这 
可 以 使 用 2.18 节 中 描述 的 技术 来 实现 。 得 到 的 结果 
可 能 是 下 面 这 样 的 标记 序列 : 


NUM + NUM * NUM 











从 这 里 开始 ， 解 析 过 程 就 涉及 通过 蔡 换 的 方式 
将 语法 匹配 到 输入 标记 上 : 


expr ::= term { (+|-) term }* 

expr ::= factor { (*|/) factor }* { (+|-) term }* 

expr ::= NUM { (*|/7) factor }* { (+|-) term }* 

expr ::= NUM { (+|-) term }* 

expr ::= NUM + term { (+|-) term }* 

expr ::= NUM + factor { (*|/) factor }* { (+|-) term }* 
expr ::= NUM + NUM { (*|/) factor}* { (+|-) term }* 

expr ::= NUM + NUM * factor { (*|/7) factor }* { (+|-) term }* 
expr ::= NUM + NUM * NUM { (*|/) factor }* { (+|-) term }* 
expr ::= NUM + NUM * NUM { (+|-) term }* 

expr ::= NUM + NUM * NUM 





Te PMT HE PR mte LE Be TA], ee h AA 
入 的 规模 和 尝试 去 匹配 的 语法 规则 所 决定 的 。 第 一 
个 输入 标记 是 一 个 NUM， 因 此 蔡 换 操作 首先 会 把 











重点 放 在 匹配 这 一 部 分 上 。 一 旦 蕊 配 上 了 ， 重 点 就 
转移 到 下 一 个 标记 + 上 ， 如 此 往复 。 当 发 现 无 法 匹 
配 下 一 个 标记 时 ， 右 手 侧 的 特定 部 分 ({ (*/) factor 
PO MSR. FESR RET IE, FENG 
ple MOTZ 76 EAS H VE Ac Bl A a A is TR A h 
T FRE o 


有 了 前 面 这 些 基 础 ， 下 面 就 癌 各 位 展示 如 何 构 
娃 一 个 递归 下 降 的 表达 式 计算 右 : 











import re 
import collections 


# Token specification 


NUM = r'(?P<NUM>\d+)' 
PLUS = r'(?P<PLUS>\+)' 
MINUS = r'(?P<MINUS>- )' 
TIMES = r'(?P<TIMES>\*)' 
DIVIDE = r'(?P<DIVIDE>/) ' 
LPAREN = r'(?P<LPAREN>\() ' 
RPAREN = r'(?P<RPAREN>\))! 


WS = r'(?P<WS>\s+)' 
master_pat = re.compile('|'.join([NUM, PLUS, MINUS, TIMES, 


DIVIDE, LPAREN, RPAREN, WS])) 
# Tokenizer 


Token = collections.namedtuple('Token', ['type', 'value']) 
def generate_tokens(text): 
scanner = master_pat.scanner(text) 
for m in iter(scanner.match, None): 
tok = Token(m.lastgroup, m.group() ) 
if tok.type != 'WS': 
yield tok 


# Parser 


class ExpressionEvaluator: 


mre 


Implementation of a recursive descent parser. Each method 


implements a single grammar rule. Use the ._accept() method 


to test and accept the current lookahead token. Use the ._expect 


method to exactly match and discard the next token on on the inp 


(or raise a SyntaxError if it doesn't match). 


def parse(self, text): 


def 


def 


def 


self.tokens = generate_tokens(text) 


self.tok = None # Last symbol consumed 
self.nexttok = None # Next symbol tokenized 
self._advance() # Load first lookahead token 


return self.expr() 


_advance(self): 


"Advance one token ahead' 
self.tok, self.nexttok = self.nexttok, next(self.tokens, Non 


_accept(self,toktype): 


‘Test and consume the next token if it matches toktype' 
if self.nexttok and self.nexttok.type == toktype: 
self._advance() 
return True 
else: 
return False 


_expect(self, toktype): 


"Consume next token if it matches toktype or raise SyntaxErr 
if not self._accept(toktype): 
raise SyntaxError('Expected ' + toktype) 


# Grammar rules follow 


def expr(self): 
"expression ::= term { ('+'|'-') term }*" 


exprval = self.term() 
while self. _accept('PLUS') or self. _accept('MINUS'): 
op = self.tok.type 
right = self.term() 
if op == 'PLUS': 
exprval += right 
elif op == 'MINUS': 
exprval -= right 
return exprval 


def term(self): 
"term ::= factor { ('*'|'/') factor }*" 


termval = self.factor() 

while self._accept('TIMES') or self._accept('DIVIDE'): 
op = self.tok.type 
right = self.factor() 


if op == 'TIMES': 
termval *= right 
elif op == 'DIVIDE': 


termval /= right 
return termval 


def factor(self): 
"factor ::= NUM | ( expr )" 


if self. _accept('NUM'): 
return int(self.tok.value) 
elif self._accept('LPAREN'): 
exprval = self.expr() 
self._expect('RPAREN' ) 
return exprval 
else: 
raise SyntaxError('Expected NUMBER or LPAREN' ) 


| 
下 面 是 以 交互 式 的 方式 使 用 


ExpressionEvaluator 类 的 示例 : 


= ExpressionEvaluator() 
.parse('2') 


.parse('2 + 3') 
.parse('2 + 3 * 4') 
.parse('2 + (3 + 4) * 5') 


.parse('2 + (3 + * 4)') 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "exprparse.py", line 40, in parse 
return 


self.expr() 

File "exprparse.py", line 67, in expr 
right = self.term() 

File "exprparse.py", line 77, in term 
termval = self.factor() 

File "exprparse.py", line 93, in factor 
exprval = self.expr() 

File "exprparse.py", line 67, in expr 
right = self.term() 

File "exprparse.py", line 77, in term 
termval = self.factor() 

File "exprparse.py", line 97, in factor 
raise SyntaxError 


("Expected NUMBER or LPAREN" ) 
SyntaxError: Expected NUMBER or LPAREN 
>>> 





如 果 我 们 想 做 的 不 只 是 纯粹 的 计算 ， 那 就 需要 
修改 ExpressionEvaluator 类 来 实现 。 比 如 ， 下 面 的 
实现 构建 了 一 标 简 单 的 解析 树 : 





class ExpressionTreeBuilder (ExpressionEvaluator ) : 
def expr(self): 
"expression ::= term { ('+'|'-') term }" 


exprval = self.term() 
while self._accept('PLUS') or self._accept('MINUS'): 
op = self.tok.type 
right = self.term() 
if op == 'PLUS': 
exprval = ('+', exprval, right) 
elif op == 'MINUS': 
exprval = ('-', exprval, right) 
return exprval 


def term(self): 
“term ::= factor { ('*'|'/') factor }" 


termval = self.factor() 

while self._accept('TIMES') or self._accept('DIVIDE'): 
op = self.tok.type 
right = self.factor() 


if op == 'TIMES': 
termval = ('*', termval, right) 
elif op == 'DIVIDE': 


termval = ('/', termval, right) 
return termval 


def factor(self): 
'factor ::= NUM | ( expr )' 


if self._accept('NUM'): 
return int(self.tok.value) 
elif self._accept('LPAREN'): 
exprval = self.expr() 
self._expect('RPAREN' ) 
return exprval 
else: 
raise SyntaxError('Expected NUMBER or LPAREN' ) 


pO 


下 面 的 示例 展示 了 它 是 如 何 工 作 的 : 





>>> e = ExpressionTreeBuilder () 
>>> e.parse('2 + 3') 

('+', 2, 3) 

>>> e.parse('2 + 3 * 4') 

(+ 2, ('*"', 3, 4)) 

>>> e.parse('2 + (3 + 4) * 5') 


('*", ('t', 3, 4), 5)) 





2.19.3 iit 


文本 解析 是 一 个 庞大 的 主题 ， 一 般 会 占用 学 生 
们 编译 原理 读 程 的 前 三 周 时 间 。 如 果 你 正在 寻找 有 
关 语 法 、 解 析 算 法 和 其 他 相关 信息 的 背景 知识 ， 那 
么 应 该 去 找 一 本 编译 絮 方 面 的 图 书 来 读 。 无 十 次 
言 ， 本 书 是 不 会 重复 那些 内 容 的 。 


然而 ， 要 编写 一 个 递归 下 降 的 解析 右 ， 总 体 思 
路 还 是 比较 简单 的 。 我 们 要 将 每 一 条 语法 规则 转变 
为 一 个 函数 或 方法 。 因 此 ， 如 采 我 们 的 语法 看 起 来 
EIXE H: 




















expr ::= term { ('+'|'-') term }* 


term ::= factor { ('*'|'/') factor }* 


factor ::= '(' expr ')' 
| NUM 





就 可 以 像 下 面 这 样 将 它们 转换 为 对 应 的 方法 : 


class ExpressionEvaluator: 
def expr(self): 


def term(self): 


def factor(self): 





每 个 方法 的 任务 很 简单 一 必须 针对 语法 规则 
的 每 个 部 分 从 左 到 右 扫描 ， 在 扫描 过 程 中 处 理 符号 
标记 。 从 某 种 意义 上 说 ， 这 些 方法 的 目的 就 是 顺利 
地 将 规则 消化 掉 ， 如 果 卡 住 了 就 产生 一 个 语法 错 
误 。 要 做 到 这 点 ， 需 要 应 用 下 面 这 些 实现 技术 。 


° 如 果 规 则 中 的 下 一 个 符号 标记 是 另 一 个 语 
法 规则 的 名 称 〈 例 如 ，term 或 者 factor) » wis 
要 调用 同名 的 方法 。 这 就 是 算法 中 的 “下 降 ” 部 
分 一 一 控制 其 下 降 到 男 一 个 语法 规则 中 。 有 时 
候 规 则 中 会 涉及 调用 已 经 在 执行 的 方法 〈 例 

















如 ， 在 规则 factor ::= '(' expr 7 中 对 expr 的 调 
H) 。 这 就 是 算法 中 的 “递归 ?部 分 。 


如 果 规 则 中 的 下 一 个 符号 标记 是 一 个 特殊 
的 符号 “例如 '(〉 ， 需 要 检查 下 一 个 标记 ， 看 它 
们 是 舍 能 完全 匹配 。 如 果 不 能 匹配 ， 这 束 是 语 
法 错误 。 本 节 给 出 的 _expect0) 方 法 就 是 用 来 处 理 
这 些 步 又 的 。 


如 果 规 则 中 的 下 一 个 符号 标记 存在 多 种 可 
能 的 选择 〈 例 如 + 或 -) ， 则 必须 针对 每 种 可 能 
性 对 下 一 个 标记 做 检查 ， 只 有 在 有 匹配 满足 时 
才 前 进 到 下 一 步 。 这 就 是 本 节 给 出 的 _accept(0) 方 
法 的 目的 所 在 。 这 有 点 像 _exceptO 的 弱化 版 ， 在 
_accept() 中 如 果 有 匹配 满足 ， 束 前 进 到 下 一 步 ， 
但 如 果 没 有 匹配 ， 它 只 是 简单 的 回 退 而 不 会 引 
ie (这 样 检查 才 可 以 继续 进行 下 

Dig 


对 于 语法 规则 中 出 现 的 重复 部 分 (例如 
expr ::=term { ('+'|'-") term }*) ,这 是 通过 while 循 
环 来 实现 的 。 一 般 在 循环 体 中 收集 或 处 理 所 有 
的 重复 项 ， 直 到 无 法 找到 更 多 的 重复 项 为 止 。 


一 旦 整个 语法 规则 都 已 经 处 理 完 ， 每 个 方 
法 就 返回 一 些 结果 给 调用 者 。 这 就 是 在 解析 过 









































程 中 将 值 进行 传递 的 方法 。 比 如 ， 在 计算 需 表 
达 式 中 ， 表 达 式 解析 的 部 分 结果 会 作为 值 来 返 
回 。 最 终 它们 会 结合 在 一 起 ， 在 最 顶层 的 语法 
规则 方法 中 得 到 执行 。 


尽管 本 节 给 出 的 例子 很 简 蛙 ,但 递归 下 降解 析 
aa FY CAFR SESE ETE SS SRT as. WOO, Python 
代码 本 里 也 是 通过 一 个 递归 下 降解 析 右 来 解释 的 。 
如 果 对 此 很 感 兴趣 ， 可 以 通过 检查 Python 源 代码 中 
的 GrammarvGrammar 文 件 来 一 探究 竟 。 即 便 如 此 ， 
要 目 己 手写 一 个 解析 器 时 仍然 需要 面 对 各 种 陷阱 和 
局 限 。 


局 限 之 一 就 是 对 于 任何 涉及 左 递 归 形 式 的 语法 
规则， 都 没 法 用 加 归 下 降解 析 旧 来 解决 。 例 如 ， 假 
设 需 要 解释 如 下 的 规则 : 














items ::= items ',' item 
| item 





要 完成 这 样 的 解析 ， 我 们 可 能 会 试 着 这 样 来 定 
Xitems0) 方 法 : 


def 


items(self): 


itemsval = self.items() 
if 


itemsval and 


self. _accept(','): 
itemsval.append(self.item() ) 
else 


itemsval = [ self.item() ] 





唯一 的 问题 就 是 这 么 做 行 不 通 。 实 际 上 这 会 产 
生 一 个 无 穷 递归 的 错误 。 





我 们 也 可 能 会 陷入 到 语法 规则 目 里 的 腑 烦 中 。 
例如 ， 我 们 可 能 想 知 道 表 达 陈 是 侣 能 以 这 种 加 简单 
的 语法 形式 来 描述 : 


expr ::= factor { ('+'|'-'|'*'|'Z') factor }* 


factor ::= '(' expression ')' 


| NUM 





这 个 语法 从 技术 上 说 是 能 实现 的 ， 但 是 它 却 并 
没有 遵守 标准 算术 中 关于 计算 顺序 的 约定 。 比 如 
Uh, FIAT + 4* 5” 会 被 计算 为 35， 而 不 古 我 们 
预期 的 23。 因 此 这 里 需要 单独 的 “expr” 和 “term” 规 








则 来 确保 计算 结果 的 正确 性 。 


对 于 真正 复 森 的 语法 解析 ， 最 好 还 是 使 用 像 
PyParsing 或 PLY 这 样 的 解析 工具 。 如 果 使 用 PLY 的 
话 ， 解 析 计 算 器 表达 式 的 代码 看 起 来 是 这 样 的 : 











from ply.lex import lex 
from ply.yacc import yacc 


# Token list 


tokens = [ 'NUM', 'PLUS', 'MINUS', 'TIMES', 'DIVIDE', 'LPAREN', 


# Ignored characters 


t_ignore = ' \t\n' 


# Token specifications (as regexs) 


t_PLUS = r'\+' 


t_MINUS = r'- 
t_TIMES = r'\*' 
t_DIVIDE = r'/' 
t_LPAREN = r'\(' 
t_RPAREN = r'\)' 


# Token processing functions 


def t_NUM(t): 
r'\d+' 
t.value = int(t.value) 
return t 


# Error handler 


def t_error(t): 
print('Bad character: {!r}'.format(t.value[0]) ) 
t.skip(1) 


# Build the lexer 


lexer = lex() 


# Grammar rules and handler functions 


def p_expr(p): 


mre 


expr : expr PLUS term 


| expr MINUS term 


if p[2] == '+': 


p[0] = p[1] + p[3] 
elif p[2] == '-': 


p[6] = p[1] - p[3] 


def p_expr_term(p): 


expr : term 


plo] = p[1] 


def p_term(p): 


term : term TIMES factor 


| term DIVIDE factor 


if p[2] == '*': 
p[0] = p[1] * p[3] 
elif p[2] == '/': 


pLO] = p[1] / p[3] 


def p_term_factor(p): 


III 


term : factor 


plo] = p[1] 


def p_factor(p): 


mre 


factor : NUM 


plo] = p[1] 


def p_factor_group(p): 


mre 


factor : LPAREN expr RPAREN 


plo] = p[2] 


def p_error(p): 
print('Syntax error') 


parser = yacc() 





在 这 份 代码 中 会 友 现 所 有 的 东西 部 是 以 一 种 更 
高 层 的 方式 来 定义 的 。 我 们 只 需 编 写 匹 配 标记 符号 
的 正则 表达 式 ， 以 及 当 匹 配 各 种 语法 规则 时 所 需要 
的 高 层 处理 函 数 就 行 了 。 而 实际 运行 解析 器 、 接 收 
符号 标记 等 都 完全 由 库 来 实现 。 


下 面 是 如 何 使 用 解析 硕 对 象 的 示例 : 














>>> parser.parse('2') 


>>> parser.parse('2+3' ) 


>>> parser.parse('2+(3+4)*5') 
37 
>>> 
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的 压 层 细 市 。 但 是 ， 在 网 上 同样 也 能 找到 许多 优秀 
es 





2.20 ”在 字 节 串 上 执行 文本 操作 


2.20.1 问题 





我 们 想 在 字 节 串 (Byte String) 上 执行 常见 的 
文本 操作 《例如 ， 折 分、 搜索 和 蔡 换 ) 。 





2.20.2 ”解决 方案 


子 市 串 已 经 文 持 大 多 数 和 文本 字符 串 一 样 的 内 
建 操 作 。 例 如 : 


>>> data = b'Hello World' 


>>> data.startswith(b'Hello' ) 
True 

>>> data.split() 

[b'Hello', b'World' ] 


>>> data.replace(b'Hello', b'Hello Cruel') 
b'Hello Cruel World' 
>>> 











类 似 这 样 的 操作 在 字 节 数组 上 也 能 完成 。 例 
如 : 


>>> data = bytearray(b'Hello World' ) 
>>> data[0:5] 


bytearray(b'Hello' ) 

>>> data.startswith(b'Hello' ) 

True 

>>> data.split() 

[bytearray(b'Hello'), bytearray(b'World' ) ] 
>>> data.replace(b'Hello', b'Hello Cruel' ) 


bytearray(b'Hello Cruel World' ) 
>>> 











我 们 可 以 在 字 市 串 上 执行 正则 表达 式 的 模式 四 
配 操作 ， 但 是 模式 本 喘 需 要 以 字 节 串 的 形式 来 指 
定 。 示 例如 下 : 








>>> 


>>> data = b'FOO:BAR, SPAM' 
>>> import re 


>>> re.split('[:,]',data) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


File "/usr/local/lib/python3.3/re.py", line 191, in split 
return 


_compile(pattern, flags).split(string, maxsplit) 
TypeError: can't use a string pattern on a bytes-like object 


>>> re.split(b'[:,]',data) # Notice: pattern as bytes 


[b'FOO', b'BAR', b'SPAM'] 
>>> 





2.20.3 iit 


就 绝 大 部 分 情况 而 言 ， 几 乎 所 有 能 在 文本 字符 
串 上 执行 的 操作 同样 也 可 以 在 字 市 串 上 进行 。 但 
是 ， 还 是 有 几 个 显 闭 的 区 别 值 得 大 家 注意 。 例 如 : 














>>> a = 'Hello World' # Text string 


>>> a[0] 
rH 
>>> a[1] 


e 
>>> b = b'Hello World' # Byte string 








这 种 语义 上 的 差异 会 对 试图 按照 字符 的 方式 处 
理 面 癌 字 节 流 数据 的 程序 冲 来 影响 。 

KHR, EER SRBC Ge PR “MC TB 
示 ， 因 此 打印 结果 并 不 干净 利沙， 除非 首先 将 其 解 
码 为 文本 字符 串 。 示 例如 下 : 


>>> s = b'Hello World' 
>>> print 














(s) 
b'Hello World' # Observe b'...' 
>>> print 


(s.decode('ascii')) 
Hello World 


>>> 














同样 道理 ， 在 字 节 串 上 是 没有 普通 字符 串 那 样 
的 格式 化 操作 的 。 


>>> b'%10s %10d %10.2f' % (b'ACME', 100, 490.1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: unsupported operand type(s) for %: 'bytes' and 'tuple 


>>> b'{} {} {}'.format(b'ACME', 100, 490.1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: 'bytes' object has no attribute 'format' 
>>> 








如 果 想 在 字 节 串 上 做 任何 形式 的 格式 化 操作 ， 
应 该 使 用 普通 的 文本 字符 串 然 后 再 做 编码 。 示 例如 
ahs 





>>> '{:10s} {:10d} {:10.2f}'.format('ACME', 100, 490.1).encode(' 
b ' ACME 100 490.10' 
>>> 














最 后 ， 需 要 注意 的 是 使 用 字 贡 串 会 改变 东 些 特 
定 操作 的 语义 一 一 尤其 是 那些 与 文件 系统 相关 的 操 
作 。 例 如 ， 如 果 提 供 一 个 以 字 市 而 不 是 文本 字符 串 
来 编码 的 文件 名 ， 文 件 系统 通常 都 会 禁止 对 文件 名 
的 编码 /解码 。 示 例如 下 : 











>>> # Write a UTF-8 filename 
>>> with 


open('jalape\xf1 


o.txt', 'w') as 


f.write('spicy' ) 


>>> # Get a directory listing 
>>> import os 


>>> os.listdir('.') # Text string (names are decoded) 
['Jalapefo.txt' ] 

>>> os.listdir(b'.') # Byte string (names left as bytes 
[b'jalapen\xcc\x830.txt' ] 

>>> 








请 注意 这 个 例子 中 的 最 后 部 分 ， 本 例 中 以 字 市 
串 作 为 目录 名 从 而 导致 产生 的 名 称 以 末 经 编码 的 原 
台 字 节 形 式 返 回 。 在 显示 目录 内 容 时 ， 文 件 名 包含 
了 原始 的 UTF-8 编 码 。 有 关 文 件 名 的 处 理 请 参阅 
5.15 节 。 


最 后 要 说 的 是 ， 有 些 程序 员 可 能 会 因为 性 能 上 
有 可 能 得 到 提升 而 倾 癌 于 将 字 贡 串 作 为 文本 字符 串 
的 蔡 代 来 使 用 。 尽 管 操纵 字 市 确实 要 比 文本 来 的 略 
微 高 效 一 些 (由 于 同 Unicode 相 关 的 固有 开销 较 
高 )， 但 这 么 做 通常 会 导致 非常 混乱 和 不 符合 语言 
习惯 的 代码 。 我 们 和 帝 会 发 现 字 节 串 和 Python 中 许多 
其 他 部 分 并 不 能 很 好 地 相 容 ， 这 样 为 了 保证 结果 的 
正确 性 ， 我 们 只 能 手动 去 执行 各 种 各 样 的 编码 /解码 
操作 。 坦 白地 说 ， 如 果 要 同文 本 打交道 ， 在 程序 中 
使 用 普通 的 文本 字符 串 就 好 ， 不 要 用 字 节 串 。 





























[1] ”把 原始 数据 中 每 一 行 开头 和 结尾 处 的 空格 从 
去 挥 ， 相 当 于 一 种 转换 处 理 。 Pee 


[2] “> 表示 右 对 齐 ，< 表 示 左 对 齐 ，w 表 示 居 中 对 
齐 ， 这 些 字符 称 为 对 齐 字符 。 一 一 译 者 注 











[3] ” 即 需 要 同 疯 数 的 栈 帧 打交道 。sys._getframe 这 
个 特殊 的 函数 可 以 让 我 们 获得 调用 函数 的 栈 信息 。 


译 者 
注 


第 3 章 数字、 日 期 和 时 间 


在 Python 中 对 整数 和 浮 点 数 进行 数学 计算 是 非 
各 容易 的 。 但 是 ， 如 果 需 要 对 分 数 、 数 组 或 者 日 期 
和 时 间 进 行 计算 ， 束 需要 完成 更 多 的 工作 。 本 革 的 


重点 正 是 应 对 这 些 主题 。 











3.1 ”对 数值 进行 取 整 
3.1.1 问题 

我 们 想 将 一 个 浮 点 数 取 整 到 固定 的 小 数位 。 
3.1.2 ”解决 方 采 


对 于 简单 的 取 整 操作 ， 使 用 内 建 的 round(value， 
ndigits) PZB AY. AN BON F : 


>>> round(1.23, 1) 
1.2 
>>> round(1.27, 1) 
1.3 


>>> round(-1.27, 1) 
1.3 


>>> round(1.25361, 3) 
1.254 
>>> 





当 某 个 值 恰 好 等 于 两 个 整数 间 的 一 半 时 ， 取 整 
操作 会 取 到 离 该 值 最 接近 的 那个 偶数 上 。 也 就 是 
说 ， 像 1.5 或 2.5 这 样 的 值 都 会 取 整 到 2。 


传递 给 round0O 的 参数 ndigits 可 以 是 负数 ， 在 这 
种 情况 下 会 相应 地 取 整 到 十 位 、 百 位 、 于 位 等 。 示 








例如 下 : 


>>> a = 1627731 
>>> round(a, -1) 
1627730 


>>> round(a, -2) 
1627700 


>>> round(a, -3) 
1628000 
>>> 





3.1.3 pic 


在 对 值 进 行 输出 时 别 把 取 整 和 格式 化 操作 混 为 
一 谈 。 如 果 只 是 将 数值 以 固定 的 位 数 输 出 ， 一 般 来 
说 是 用 不 着 round0O) 的 。 相 反 ， 只 要 在 格式 化 时 指定 
所 需要 的 精度 就 可 以 了 。 丰 例如 下 : 

oR 


>>> format(x, '0.3f') 
'1:235' 


>>> 'value is {:0.3f}'.format(x) 
'value is 1.235' 
>>> 











此 外 ， 不 要 采用 对 浮 点 数 取 整 的 方式 来 < 修 
正 * 精 度 上 的 问题 。 比 如 ， 我 们 可 能 会 从 向 于 这 样 
做 : 


6. 300000000000001 
>>> c = round(c, 2) # "Fix" result (???) 








IFEAD A RRM HET UL, — H 
RUMA RAAN) 这 么 做 。 尽 管 这 样 会 
引入 一 些小 误 和 莽 ， 但 这 些 误差 是 可 理解 的 ， 也 是 可 
容 妨 的。 如果 说 避免 出 现 误差 的 行为 非常 重要 〈 例 
如 在 金融 类 应 用 中 ) ， 那 么 可 以 考虑 使 用 decimal 模 
块 ， 这 也 正 是 下 一 节 的 主题 。 


3.2 执行 精确 的 小 数 计算 
3.2.1 问题 


我 们 需要 对 小 数 进行 精确 计算 ， 不 希望 因为 浮 
点 数 天 生 的 误差 而 带 来 影响 。 


3.2.2 ”解决 方案 
天 于 浮上 点 数 ， 一 个 尺 人 缘 知 的 问题 束 是 它们 无 


法 精确 表达 出 所 有 的 十 进 制 小 数位 。 此 外 ， 甚 至 连 
简单 的 数学 计算 也 会 引入 做 小 的 误 码 。 例 如 : 


>>> a = 4.2 

>>> b = 2.1 

>>> a +b 

6. 300000000000001 
>>> (a + b) == 6.3 


False 
>>> 








这 些 误 差 实 际 上 是 底层 CPU 的 浮 点 运算 单元 和 
IEEE 754 浮 点 数 算术 标准 的 一 种 “特性 ”。 由 于 
Python 的 浮 点 数 类 型 保存 的 数据 采用 的 是 原始 表示 
形式 ， 因 此 如 果 编 写 的 代码 用 到 了 float 实 例 ， 那 就 
无 法 避免 这 样 的 误差 。 

















如 果 期 望 得 到 更 高 的 精度 (并 愿意 为 此 牺牲 挥 
一 些 性 能 ) ， 可 以 使 用 decimal 模 块 : 


>>> from decimal import Decimal 
>>> a = Decimal('4.2') 

>>> b = Decimal('2.1') 

>>> a + b 

Decimal('6.3') 

>>> print(a + b) 


6.3 
>>> (a + b) == Decimal('6.3') 
True 
>>> 








这 么 做 初 看 起 来 似乎 有 点 怪异 〈 将 数字 以 字符 
FB 的 形式 来 指定 ) 。 但 是 ，Decimal 对 象 能 以 任何 
期 望 的 方式 来 工作 《〈 文 持 所 有 和 间 见 的 数学 操作 ) 。 
如 果 要 将 它们 打印 出 来 或 是 在 字符 串 格式 化 函数 中 
使 用 ， 它 们 看 起 来 束 和 普通 的 数字 一 样 。 


decimal 模 块 的 主要 功能 是 允许 控制 计算 过 程 中 
的 各 个 方面 ， 这 包括 数字 的 位 数 和 四 舍 五 入 。 要 做 
到 这 些 ， 需 要 创建 一 个 本 地 的 上 和 下文 环 境 然 后 修改 
Hw. ANION FP: 


























>>> from decimal import localcontext 

>>> a = Decimal('1.3') 

>>> b = Decimal('1.7') 

>>> print(a / b) 

0. 7647058823529411764705882353 

>>> with localcontext() as ctx: 
ctx.prec = 3 


print(a / b) 
0.765 
>>> with localcontext() as ctx: 


ctx.prec = 50 
print(a / b) 


0. 76470588235294117647058823529411764705882352941176 





3.2.3 pic 


decimal 模 块 实现 了 IBM 的 通用 十 进 制 算 本 规范 

(General Decimal Arithmetic Specification) 。 不 用 

说 ， 这 里 面 有 痢 数 量 庞大 的 配置 选项 ， 这 些 都 超出 
了 本 书 的 范围 。 


Python 新 手 可 能 会 倾 问 于 利用 decimal 模 块 来 规 
避 处 理 float 数 据 类 型 所 固有 的 精度 问题 。 但 是 ， 正 
确 理解 你 的 应 用 领域 是 至 关 重 要 的 。 如 果 我 们 处 理 
的 是 科学 或 工程 类 的 问题 ， 像 计算 机 图 形 学 或 者 大 
部 分 带 有 科学 性 质 的 问题 ， 那 么 更 常见 的 做 法 是 直 
接 使 用 普通 的 浮 点 类 型 。 首 先 ， 在 真实 世界 中 极 少 
有 什么 东西 需要 计算 到 小 数 点 后 17 位 〈float 提 供 17 
位 的 精度 ) 。 因 此 ， 在 计算 中 引入 的 微小 误差 根 本 
了 怠 不 足 挂 齿 。 其 次 ， 原 生 的 译 点 数 运算 性 能 要 快 上 
许多 一 如 果 要 执行 大 量 的 计算 ， 那 性 能 问题 就 显 
得 很 重要 了 。 














也 束 是 说 我 们 无 法 完全 忽略 误 兰 。 数 学 家 人 花费 
了 大 量 的 时 间 来 研究 各 种 算法 ， 其 中 一 些 算法 的 误 
甜 处 理 能 力 优 于 其 他 的 算法 。 我 们 同样 还 需要 对 类 
似 相 减 抵 消 (subtractive cancellation) 以 及 把 大 数 
和 小 数 加 在 一 起 时 的 情况 多 加 小 心 。 示 例如 下 : 








>>> nums = [1.23e+18, 1, -1.23e+18] 
>>> sum(nums ) # Notice how 1 disappears 





上 面 这 个 例子 可 以 通过 使 用 math.fsumO 以 更 加 
精确 的 实现 来 解决 : 
>>> import math 


>>> math.fsum(nums) 
1.0 


>>> 








但 是 对 于 其 他 的 算法 ， 需 要 研究 算法 本 号 ， 并 
理解 其 误差 传播 《〈error propagation) 的 性 质 。 


综 上 所 述 ，decimal 模 块 主要 用 在 涉及 像 金融 这 
一 类 业务 的 程序 中 。 在 这 样 的 程序 里 ， 计 算 中 如 果 
出 现 微小 的 误差 是 相当 令 人 生 厌 的 。 因 此 ，decimal 














模块 提供 了 一 种 规避 误差 的 方式 。 当 用 Python 作 数 
据 库 的 接口 时 也 会 常常 会 过 到 Decimal 对 象 JG 
其 是 当 访 问 金 融 数 据 时 更 是 如 此 。 














3.3 ”对 数值 做 格式 化 输出 
3.3.1 问题 


我 们 需要 对 数值 做 格式 化 输出 ， 包 括 控 制 位 
数 、 对 齐 、 包 含 干 位 分 隅 从 以 及 其 他 一 些 细 市 。 


3.3.2 ”解决 方案 


要 对 一 个 单独 的 数值 做 格式 化 输出 ， 使 用 内 建 
的 format0 函 数 即 可 。 示 例如 下 : 





>>> x = 1234.56789 


>>> # Two decimal places of accuracy 


>>> format(x, '0.2f') 
'1234.57' 


>>> # Right justified in 10 chars, one-digit accuracy 


>>> format(x, '>10.1f') 
' 1234.6' 


>>> # Left justified 


>>> format(x, '<10.1f') 


'1234.6 ' 


>>> # Centered 


>>> format(x, '410.1f') 
' 1234.6 ' 


>>> # Inclusion of thousands separator 


>>> format(x, ',') 
'1,234.56789' 

>>> format(x, 'O,.1f') 
'1,234.6' 


>>> 








如 有 果 想 采用 科学 计数 法 ， 只 要 把 f 改 为 e 或 者 E 
即 可 ， 根 据 希 望 采 用 的 指数 规格 来 指定 。 示 例如 
F: 





>>> format(x, 'e') 
'1.234568e+03' 

>>> format(x, '0.2E') 
"1. 23E+03" 


>>> 





以 上 两 种 情况 中 ， 指 定 宽度 和 精度 的 一 般 格 式 
为 [<>^]?width[,]?(.digits)?'"， 这 里 width 和 digits 为 整 
数 ， 而 ?代表 可 选 的 部 分 。 同 样 的 格式 也 可 用 于 字 
符 串 的 .format(0) 方 法 中 。 示 例如 下 : 


>>> 'The value is {:0,.2f}'.format(x) 
'The value is 1,234.57' 


>>> 





3.3.3 rit 


对 数值 做 格式 化 输出 通常 都 是 很 直接 的 。 本 市 
展示 的 技术 既 能 用 于 浮上 点 型 数 ， 也 能 适用 于 decimal 
模块 中 的 Decimal 对 象 。 


当 需 要 限制 数值 的 位 数 时 ， 数 值 会 根据 round() 
函数 的 规则 来 进行 取 整 。 示 例如 下 : 








>>> X 


1234.56789 

>>> format(x, '0.1f') 
1234.6! 

>>> format(-x, '0.1f') 


"-1234.6' 
>>> 





对 数值 加 上 于 位 分 隅 符 的 格式 化 操作 并 不 是 特 
定 于 本 地 环境 的 。 如 果 需 要 将 这 个 需求 纳入 考虑 ， 
应 该 考察 一 下 local 模 块 中 的 函数 。 还 可 以 利用 字符 
串 的 translate(0) 方 法 交换 不 同 的 分 隅 字 符 。 示 例如 
下 : 








>>> swap_separators = { ord('.'):',', ord(','):'.' } 


>>> format(x, ',').translate(swap_separators) 
'1.234,56789' 
>>> 





在 很 多 Python 代码 中 ， 第 用 % 操 作 符 来 对 数值 
做 格式 化 处 理 。 示 例如 下 : 


>>> '%0.2F' % x 





这 种 格式 化 操作 仍然 是 可 接受 的 ， 但 是 比 起 更 
加 现代 化 的 formatO 方 法 ， 这 种 方法 束 显 得 不 是 那 
么 强大 了 。 比 如 说 ， 当 使 用 % 操 作 符 来 格式 化 数值 
时 ， 有 些 功 能 就 没 法 得 到 支持 了 【例如 添加 和 干 位 分 
Katt) 。 








3.4 _ 同 二 进 制 、 八 进 制 和 十 六 进 制 
AF) ACE 
3.4.1 问题 


我 们 需要 对 以 二 进 制 、 八 进 制 或 十 六 进 制 表示 
的 数值 做 转换 或 输出 。 


3.4.2 ”解决 方案 
要 将 一 个 整数 转换 为 二 进 制 、 八 进 制 或 十 六 进 


制 的 文本 字符 串 形 式 ， 只 要 分 别 使 用 内 建 的 bin0)、 
oct() 和 hex() 函 数 即 可 ， 示 例如 下 : 


>>> x = 1234 
>>> bin(x) 


'0b10011010010' 





此 外 ， 如 果 不 希 望 出 现 0b、0o 或 者 0x 这 样 的 前 
级 ， 可 以 使 用 format(0) 函 数 。 示 例如 下 : 


>>> format(x, 
'10011010010' 
>>> format(x, 
'2322' 

>>> format(x, 


'4d2' 
>>> 





整数 是 有 符号 的 ， 因 此 如 果 要 处 理 负 数 的 话 ， 
输出 中 也 会 带 上 一 个 符号 。 示 例如 下 : 


>>> x = -1234 
>>> format (x, 
'-10011010010' 
>>> format (x, 





相反 ， 如 条 需 要 产生 一 个 无 符号 的 数值 ， 需 要 
加 上 最 大 值 来 设置 比特 位 的 长 度 。 比 如 ， 要 展示 一 
个 32 位 数 ， 可 以 像 这 样 实现 : 


>>> X = -1234 

>>> format(2**32 + x, 'b' 
'41111111111111111111101100101110' 
>>> format(2**32 + x, 'x') 





'fffffb2e' 
>>> 
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需要 使 用 int0 函 数 再 配合 适当 的 进 制 即 可 。 示 例如 
F: 


>>> int('4d2', 16) 


1234 
>>> int('10011010010', 2) 
1234 
>>> 





3.4.3 ”讨论 


对 于 大 部 分 的 情况 ， 处 理 二 进 制 、 八 进 制 和 十 
六 进 制 数 都 是 非常 直接 的 。 只 是 需要 记 住 ， 这 些 转 
换 只 适用 于 转换 整数 的 文本 表示 形式 ， 实 际 在 撒 层 


只 有 一 种 整数 类 型 。 


最 后 ， 对 于 那些 用 到 了 八进制 数 的 程序 员 来 说 
还 有 一 个 地 方 需要 注意 。 在 Python 中 指定 八进制 数 
的 语法 和 许多 其 他 编程 语言 稍 有 人 不同。 比方 说 ， 如 
东 试 着 做 如 下 的 操作 ， 则 会 得 到 一 个 语法 错误 : 











>>> import os 
>>> os.chmod('script.py', 0755) 
File "<stdin>", line 1 
os.chmod('script.py', 0755) 
A 


SyntaxError: invalid token 
>>> 





请 确保 在 八进制 数 前 添加 oo 前缀 ， 就 像 这 样 : 


>>> os.chmod('script.py', 00755) 
>>> 


35 ”从 字 节 串 中 打包 和 解 包 大 整数 


3.5.1 问题 





BUN ANB, BOR A LN -NEN 
数值 。 此 外 ， 还 需要 将 一 个 大 整数 重新 转换 为 一 个 
Fes 
3.5.2 RTR 


假设 程序 需要 处 理 一 个 有 着 16 个 元 素 的 字 节 
串 ， 其 中 保存 着 一 个 128 位 的 整数 。 示 例如 下 : 


data = b'\x00\x124V\x00x\x90\xab\x00\xcd\xef\x01\x00#\x004' 


要 将 字 节 解释 为 整数 ， 可 以 使 用 
int.from_bytes()， 然 后 像 这 样 指 定 字 节 序 即 可 : 


>>> len(data) 
16 








>>> int.from_bytes(data, 'little') 
69120565665751139577663547927094891008 
>>> int.from_bytes(data, 'big') 


9452284252074728448 7117 727783387188 
>>> 





要 将 一 个 大 整数 重新 转换 为 字 节 串 ， 可 以 使 用 
int.to_bytes() 方 法 ， 只 要 指定 字 节 数 和 字 节 序 即 
可 。 示 例如 下 : 


>>> X = 94522842520747284487117727783387188 

>>> x.to_bytes(16, 'big') 
b'\xOO\x124V\x00x\x90\xab\xO00\xcd\xef\x01\x00#\x004 ' 
>>> x.to_bytes(16, 'little') 


b'4\x00#\x00\x01\xefF\xcd\x00\xab\x90x\xOO0V4\x12\x00' 
>>> 





3.5.3 ”讨论 


在 大 整数 和 字 节 串 之 间 互 相 转换 并 不 算是 常见 
的 操作 。 但 是 ， 有 时 候 在 特定 的 应 用 领域 中 却 有 这 
样 的 需求 ， 例 如 加 密 技 术 或 网 络 应 用 中 。 比 方 说 
IPV6 网 络 地 址 就 是 由 一 个 128 位 的 整数 来 表示 的 。 
如 果 正 在 编写 的 代码 需要 将 这 样 的 值 从 数据 记录 中 
提取 出 来 ， 束 得 面 对 这 个 问题 。 


作为 本 节 中 技术 的 蔡 代 方案 ， 我 们 可 能 会 倾 问 
于 使 用 struct 模 块 来 完成 解 包 ， 具 体 可 参见 6.11 节 。 
这 行 得 通 ， 但 是 struct 模 块 可 解 包 的 整数 大 小 是 有 限 
制 的 。 因 此 ， 和 需要 解 包 多 个 值 ， 然 后 再 将 它们 合并 
起 来 以 得 到 最 终 的 结果 。 示 例如 下 : 


>>> data 
b'\xOO\x124V\x00x\x90\xab\x0O0\xcd\xef\xO1\x00#\x004' 

















>>> import struct 


>>> hi, lo = struct.unpack('>QQ', data) 
>>> (hi << 64) + lo 
94522842520747284487117727783387188 


>>> 





FUN ME Remain) 指定 了 组 成 整数 
的 字 节 是 从 低位 到 高 位 排列 还 是 从 高 位 到 低位 排 
列 。 只 要 我 们 精心 构造 一 个 十 六 进 制 数 ， 就 能 很 容 
易 看 出 这 其 中 的 意义 : 


>>> x = 0X01020304 

>>> x.to_bytes(4, 'big') 
b'\x01\x02\x03\x04' 

>>> x.to_bytes(4, 'little') 
b'\x04\x03\x02\x01' 

>>> 














QR SO — PS EBT BB, (BK 
小 不 合适 的 话 束 会 得 到 一 个 错误 信息 。 如 果 需 要 的 
话 ， 可 以 使 用 int.bit_length0 方 法 来 确定 需要 用 到 多 
少 位 才能 保存 这 个 值 : 








>>> x = 523 ** 23 


>>> x 
335381300113661875107536852714019056160355655333978849017944067 
>>> x.to_bytes(16, 'little') 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 


OverflowError: int too big to convert 

>>> x.bit_length() 

208 

>>> nbytes, rem = divmod(x.bit_length(), 8) 
>>> if 


rem: 


nbytes += 1 


>>> 
>>> x.to_bytes(nbytes, 'little') 
b'\xO3X\xfFf1\x82iT\x96\xac\xc7c\x16\xf3\xb9\xcf...\xdo' 


>>> 





3.6 ”复数 运算 


3.6.1 问题 





我 们 的 代码 在 同 最 新 的 Web 认 证 方案 交互 时 明 
到 了 奇 点 (singularity〉 问 题 ， 而 唯一 的 解决 方案 是 
在 复 平面 解决 。 或 者 也 许 只 需要 利用 复数 完成 一 些 
计算 就 可 以 了 。 





3.6.2 ”解决 方案 


复数 可 以 通过 complex(real, imag) KAKE E, 
或 者 通过 浮 点 数 再 加 上 后 缀 j 来 指定 也 行 。 示 例如 
下 : 


>>> a = complex(2, 4) 
>>> b= 3 - 5j 





SEAR EHB BEAU {EL AY VAT (Et Se RR h 
来 ， 示 例如 下 : 


a.real 


a.imag 


a.conjugate( ) 


(2-47) 
>>> 





m 此 外 ， 所 有 常见 的 算术 运算 操作 都 适用 于 复 


>>> a + b 

(5-1j) 

>>> a * b 

(26+2j) 

>>> a/b 
(-0.4117647058823529+0.6470588235294118] ) 
>>> abs(a) 

4.47213595499958 

>>> 








最 后 ， 如 果 要 执行 有 关 复 数 的 函数 操作 ， 例 如 
求 正 弦 、 余 弱 或 平方 根 ， 可 以 使 用 cmath 模 块 : 


>>> import cmath 
>>> cmath.sin(a) 
(24.83130584894638-11.356612711218174] ) 
>>> cmath.cos(a) 
(-11.36423470640106 -24.814651485634187] ) 


>>> cmath.exp(a) 
(-4.829809383269385-5.5920560936409816] ) 
>>> 





3.6.3 ”讨论 


Python 中 大 部 分 和 数学 相关 的 便 其 都 可 适用 于 
复数 。 例 如 ， 如 果 使 用 numpy 模 块 ， 可 以 很 直接 地 
创建 复数 数组 ， 并 对 它们 执行 操作 : 


>>> import numpy as np 

>>> a = np.array([2+3j, 4+5j, 6-7j, 8+9j]) 
>>> a 

array([ 2.+3.j, 4.+5.j, 6.-7.j, 8.+9.j]) 
>>> a + 2 

array([ 4.+3.j, 6.+5.j, 8.-7.j, 10.+9.j]) 


>>> np.sin(a) 

array([ 9.15449915 -4.16890696j, -56.16227422 -48.50245524)j, 
-153.20827755-526.47684926j, 4008.42651446-589.49948373 

>>> 





Python 中 的 标准 数学 函数 默认 情况 下 不 会 产生 
复数 值 ， 因 此 像 这 样 的 值 不 会 意外 地 出 现在 代码 
里 。 例 如 : 


>>> import math 

>>> math.sqrt(-1) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


ValueError: math domain error 
>>> 





BUR ais BE I BR, HU RH EEA 
cmath 模 块 或 者 在 可 以 感知 复数 的 库 中 声明 对 复数 











类 型 的 使 用 。 示 例如 下 : 


>>> import cmath 
>>> cmath.sqrt(-1) 
1] 


>>> 





3.7 ”处 理 无 穷 大 和 NaN 
3.7.1 问题 


我 们 需要 对 浮 点 数 的 无 穷 大 、 负 无 穷 大 或 
NaN Cnota number) 进行 判断 测试 。 


3.7.2 ”解决 方案 
python 中 并 没有 特殊 的 语法 用 来 表示 这 些 特 殊 


的 浮 点 数值 ， 但 是 它们 可 以 通过 float() 来 创建 。 示 
例如 下 : 








>>> a = float('inf') 
>>> b = float('-inf') 
>>> c = float('nan') 





要 检测 是 否 出 现 了 这 些 值 ， 可 以 使 用 
math.isinf()#Umath.isnan() Až. ANP F: 


>>> math.isinf(a) 
True 
>>> math.isnan(c) 
True 


>>> 





3.7.3 ”讨论 

要 获得 关于 这 些 特殊 的 浮 点 数值 的 详细 信息 ， 
应 该 参考 IEEE 754 规 范 。 但 是 ， 这 里 有 几 个 环 手 的 
细节 问题 需要 搞 清 楚 ， 尤 其 是 当 涉 及 比较 操作 和 操 
作 符 时 可 能 出 现 的 问题 。 

无 穷 大 值 在 数学 计算 中 会 进行 传播 。 例 如 : 


>>> a = float('inf') 








但 是 ， 菏 些 特定 的 操作 会 导致 未 定义 的 行为 并 
产生 NaN 的 结果 。 例如 : 


>>> a = float('inf') 
>>> a/a 
nan 


loat('-inf') 


f 
b 





NaN 会 通过 所 有 的 操作 进行 传播 ， 且 不 会 3 
EME o Bill On: 





发 


float('nan' ) 
+ 23 


2 


math.sqrt(c) 








有 关 NaN， 一 个 微妙 的 特性 是 它们 在 做 比较 时 
从 不 会 被 判定 为 相等 。 例 如 : 
>>> c = float('nan') 
>>> d = float('nan') 

== d 


is 











正 因 为 如 此 ， 唯 一 安全 检测 NaN 的 方法 是 使 用 
math.isnan0， 正 如 本 节 示 例 代 码 中 的 那样 。 


有 时 候 程序 员 和 希望 在 出 现 无 穷 大 或 NaN 结 果 时 
可 以 修改 Python 的 行为 ， 让 它 抛 出 异常 。fpectl 模 块 
可 以 用 来 调整 这 个 行为 ， 但 是 在 标准 Python 中 它 是 
没有 开局 的 ， 而 且 这 个 模块 是 同 平台 相关 的 ， 只 和 针 
对 专家 级 的 程序 员 使 用 。 可 以 参见 Python 在 线 文档 
Chttp://docs.python.org/3/library/fpectl.html 〉 以 获 
得 进一步 的 细节 。 


3.8 ”分 数 的 计算 
3.8.1 问题 

仿佛 进入 时 光 机 一 样 ， 我 们 突然 发 现 上 自己 在 做 
涉及 分 数 处 理 的 小 学 家 庭 作业 。 或 者 也 许 我 们 正在 
为 自己 的 木材 商店 编写 测量 计算 方面 的 代码 。 
3.8.2 ”解决 方案 


fractions 模 块 可 以 用 来 处 理 涉及 分 数 的 数学 计 
算 问 题 。 示 例如 下 : 








>>> from fractions import Fraction 
>>> a = Fraction(5, 4) 

>>> b = Fraction(7, 16) 

>>> print(a + b) 

27/16 


>>> print(a * b) 
35/64 


>>> # Getting numerator/denominator 


>>> c=a* b 

>>> c.numerator 
35 

>>> c.denominator 


64 
>>> # Converting to a float 


>>> float(c) 
0.546875 


>>> # Limiting the denominator of a value 


>>> print(c.limit_denominator (8) ) 
4/7 


>>> # Converting a float to a fraction 


= 3.75 
>>> y = Fraction(*x.as_integer_ratio()) 


>>> 
Fraction(15, 4) 
>>> 





3.8.3 pit 


在 大 多 数 程序 中 ， 涉 及 分 数 的 计算 问题 并 不 第 
见 。 但 是 在 有 些 场景 中 使 用 分 数 还 是 有 道理 的 。 比 
如 ， 人 允许 程序 接受 以 分 数 形式 给 出 的 单位 计量 并 执 
行 相应 的 计算 ， 这样 可 以 避免 用 户 手 动 将 数据 转换 
为 Decimal 对 象 或 浮 点 数 。 

















3.9 ”处 理 大 型 数组 的 计算 
3.9.1 问题 


我 们 需要 对 大 型 的 数据 集 比 如 数组 或 网 格 
(grid) 进行 计算 。 


3.9.2 解决 方案 


对 于 任何 涉及 数组 的 计算 密集 型 任务 ， 请 使 用 
NumPy 库 。NumPy 的 主要 特性 是 为 Python 提供 了 数 
组 对 象 ， 比 标准 Python 中 的 列表 有 着 更 好 的 性 能 
现 ， 因 此 更 加 适合 于 做 数学 计算 。 下 面 是 一 个 简短 
的 示例 ， 用 来 说 明 列 表 同 NumPy 数 组 在 行为 上 的 几 
个 重要 不 同 之 处 : 











>>> # Python lists 

>>> x = [1, 2, 3, 4] 
>>> y = [5, 6, 7, 8] 
>>> x * 2 

[1, 2, 3, 4, 1, 2, 3, 4] 


>>> X + 10 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: can only concatenate list (not "int") to list 
>>> x + y 
[1, 2, 3, 4, 5, 6, 7, 8] 


>>> # Numpy arrays 
>>> import numpy as np 


>>> ax = np.array([1, 2, 3, 4]) 
>>> ay = np.array([5, 6, 7, 8]) 
>>> ax * 2 

array([2, 4, 6, 8]) 

>>> ax + 10 

array([11, 12, 13, 14]) 

>>> ax ta 

array([ 6, 8, 10, 12]) 

>>> ax * a 

array([ 5, 12, 21, 32]) 

>>> 





可 以 看 到 ， 有 关 数 组 的 几 个 基本 数学 运算 在 行 
为 上 都 有 所 不 同 。 特 别 是 ，NumPy 中 的 数组 在 进行 
标量 运算 〈 例 如 ax * 2 或 ax+ 10) 时 是 针对 逐个 元 
系 进 行 计算 的 。 些 外 ， 当 两 个 操作 数 都 古 数组 时 ， 
NumPy 数 组 在 进行 数学 运算 时 会 针对 数组 的 所 有 元 
素 进 行 计 算 ， 并 产生 出 一 个 新 的 数组 作为 结果 。 








由 于 数学 操作 会 同时 施加 于 所 有 的 元 素 之 上 ， 
这 一 事实 使 得 对 整个 数组 的 计算 变 得 非常 简单 和 快 
速 。 比 方 说 ， 如 果 想 计算 多 项 式 的 值 : 














>>> def f(x): 
Oe return 3*x**2 - 2*x + 7 


>>> f (ax) 


array([ 8, 15, 28, 47]) 
>>> 





NumPy 提 供 了 一 些 “ 通 用 函数 ”的 集合 ， 它 们 也 
能 对 数组 进行 操作 。 这 些 通 用 函数 可 作为 math 柑 块 
中 所 对 应 函数 的 丛 代 。 示 例如 下 : 


>>> np.sqrt(ax) 

array([ 1. , 1.41421356, 1.73205081, 2. ]) 

>>> np.cos(ax) 

array([ 0.54030231, -0.41614684, -0.9899925 , -0.65364362]) 


>>> 





使 用 NumPy 中 的 通用 函数 ， 其 效率 要 比 对 数组 
进行 运 代 然后 使 用 math 模 块 中 的 函数 每 次 只 处 理 一 
个 元 素 快 上 百倍 。 因 此 ， 只 要 有 可 能 就 应 该 使 用 这 
些 通 用 函数 。 


在 确 层 ，NumPy 数 组 的 内 存 分 配方 式 和 C 或 者 
Fortran 一 样 。 即 ， 它 们 是 大 块 的 连续 内 存 ， 由 同一 
种 类 型 的 数据 组 成 。 正 是 因为 这 样 ，NumPy 才 能 创 
建 比 通常 Python 中 的 列表 要 大 得 多 的 数组 。 例 如 ， 
如 果 想 创建 一 个 10000x10000 的 二 维 浮 点 数组 ， 这 
根本 不 是 问题 : 

















>>> grid = np.zeros(shape=(10000,10000), dtype=float) 

>>> grid 

array([[ 0., ©., ©., ..., ©., ©., Os 
., O 


© 
© 
© 
© 
© 
© 


了 


[ 
[ 0. 
[ 


O OO 
© 
© 

oos 
© 

ooo 


>>> 


所 有 的 第 用 操作 仍然 可 以 同时 施加 于 所 有 的 元 
素 之 上 : 


>>> grid 
>>> grid 
array([[ 

[ 


) 

>>> np.sin(grid) 

array([[-0.54402111, -0.54402111, -0.54402111, ..., -0.54402111, 
-0.54402111, -0.54402111], 
-0.54402111, -0.54402111, -0.54402111, ..., -0.54402111, 
-0.54402111, -0.54402111], 
-0.54402111, -0.54402111, -0.54402111, ..., -0.54402111, 
-0.54402111, -0.54402111], 


und 
-0.54402111, -0.54402111, -0.54402111, ..., -0.54402111, 
-0.54402111, -0.54402111], 

-0.54402111, -0.54402111, -0.54402111, ..., -0.54402111, 
-0.54402111, -0.54402111], 

-0.54402111, -0.54402111, -0.54402111, ..., -0.54402111, 
-0.54402111, -0.54402111]]) 








关于 NumPy， 一 个 特别 值得 提起 的 方面 就 是 
NumPy 扩 展 了 Python 列表 的 索引 功能 尤其 是 针 
对 多 维 数 组 时 更 是 如 此 。 为 了 说 明 ， 我 们 先 构造 一 
上 简单 的 二 维 数 组 然后 做 些 试验 : 








>>> a = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]]) 
>>> a 
array([ 


fay. 
[ 5, 6 
[ 9, 1 


了 


or 
e` 
H 
m 
N 
Ll 
Ll 
\ 一 


>>> # Select row 1 


>>> a[1] 
array([5, 6, 7, 8]) 


>>> # Select column 1 


>>> a[:,1] 
array([ 2, 6, 10]) 


>>> # Select a subregion and change it 


>>> a[1:3, 1:3] 
array([[ 6, 7], 
[10, 11]]) 
>>> a[1:3, 1:3] += 10 
>>> a 
array([[ 1, 2, 3, 4], 
[ 5, 16, 17, 8], 
[ 9, 20, 21, 12]]) 


>>> # Broadcast a row vector across an operation on all rows 


>>> a + [100, 101, 102, 103] 
array([[101, 103, 105, 107], 
[105, 117, 119, 111], 
[109, 121, 123, 115]]) 
>>> a 
array([[ 1, 2, 3, 4], 
[ 5, 16, 17, 8], 
[ 9, 20, 21, 12]]) 


>>> # Conditional assignment on an array 


>>> np.where(a < 10, a, 10) 
array([[ 1, 2, 3, 4], 

[ 5, 10, 10, 8], 

[ 9, 10, 10, 10]]) 
>>> 





3.9.3 ”讨论 
Python 中 大 量 的 科学 和 工程 类 函数 库 都 以 





NumPy 作 为 基础 ， 它 也 是 广泛 使 用 中 的 最 为 庞大 和 
复杂 的 模块 之 一 。 尽 管 如 此 ， 对 于 NumPy 我 们 还 是 
可 以 从 构建 简单 的 例子 开始 ， 逐 步 试验 ， 最 后 实现 
一 些 有 用 的 应 用 。 


提 到 NumpPy 的 用 法 ， 一 个 相对 来 说 比较 常见 的 
导入 方式 是 import numpy as np， 正 如 我 们 给 出 的 示 
例 中 那样 ， 这 么 做 缩短 了 名 称 ， 方 便 我 们 每 次 在 程 
序 中 输入 。 


要 获得 更 多 信息 ， 一 定 要 去 看 看 NumPy 的 官方 
站 点 http:/www.numpy.org 。 











3.10 ”和 矩阵 和 线性 代数 的 计算 


3.10.1 问题 


我 们 需要 执行 窍 隆 和 线性 代数 方面 的 操作 ， 比 
如 年 阵 乘法 、 求 行列 式 、 解 线性 方程 等 。 


3.10.2 解决 方案 


NumpPy 库 中 有 一 个 matrix 对 象 可 用 来 处 理 这 种 
情况 。Matrix 对 象 和 3.9 节 中 摘 述 的 数组 对 象 有 些 类 
似 ， 但 是 在 计算 时 遵循 线性 代数 规则 。 下 面 的 例子 
展示 了 几 个 重要 的 特性 : 





>>> import numpy as 
>>> m = np. mater X(T i -2,3],[0,4,5],[7,8,-9]]) 
>>> m 


matrix([[ 1, -2, 3], 
[ 0, 4, 5] 
[ 7, 8, -9]]) 


>>> # Return transpose 


>>> m.T 
matrix([[ 1, ©, 7], 


>>> # Return inverse 


>>> m.I 

matrix([[ 0.33043478, -0.02608696, 0.09565217], 
[-0.15217391, 0.13043478, 0.02173913], 
[ 0.12173913, 0.09565217, -0.0173913 ]|]) 


>>> # Create a vector and multiply 


>>> v = np.matrix([[2], [3], [4]]) 
>>> V 
matrix([[2], 
[3], 
[4]]) 
>>> m* v 
matrix([[ 8], 
[32], 
[ 2]]) 


>>> 








更 多 的 操作 可 在 numpy.linalg 子 模块 中 找到 。 
例如 : 


>>> import numpy.linalg 





>>> # Determinant 


>>> numpy.linalg.det(m) 
-229 .99999999999983 


>>> # Eigenvalues 


>>> numpy.linalg.eigvals(m) 
array([-13.11474312, 2.75956154, 6.35518158]) 


>>> # Solve for x in mx = V 


>>> x = numpy.linalg.solve(m, v) 
>>> x 
matrix([[ 0.96521739], 
[ 0.17391304], 
[ 0.46086957]]) 
>>> m * x 
matrix([[ 2.], 
[ 3.], 
[ 4.]]) 
>>> V 
matrix([[2], 
[3], 
[4]]) 





3.10.3 wir 


显然 ， 线 性 代数 是 个 庞大 的 课题 ， 远 超出 了 本 
书 的 范围 。 但 是 ， 如 果 需 要 处 理 和 矩阵 和 癌 量 ， 
NumPy 十 个 很 好 的 起 点 。 请 访问 
http://www.numpy.org 以 获得 更 多 详细 的 信息 。 





3.11 随机 选择 
3.11.1 问题 


我 们 想 从 序列 中 随机 挑选 出 元 素 ， 或 者 想 生 成 
随机 数 。 





3.11.2 解决 方案 


random 模 块 中 有 各 种 函数 可 用 于 需要 随机 数 和 
随机 选择 的 场景 。 例 如 ， 要 从 序列 中 随机 挑选 出 元 
素 ， 可 以 使 用 random.choice(): 


>>> import bandon 

>>> values = [1, 2, 3, 4, 5, 6] 
>>> random.choice(values ) 

2 

>>> random.choice(values ) 

3 


>>> random.choice(values ) 
1 


>>> random.choice(values) 
4 


>>> random.choice(values ) 


>>> 





QR ALAR LENS ce, CORRE HY OR AS BR 


做 进一步 的 考察 ， 可 以 使 用 random.sample(): 


random.sample(values, 
2] 
random.sample(values, 
3] 
random.sample(values, 
3, 1] 


random.sample(values, 
4, 1] 





UR R EAE Ee HT LR IE 
he) ， 可 以 使 用 random.shuffle0): 





random. shuffle(values ) 
values 

4, 6, 5, 3, 1] 

random. shuffle(values) 
values 

5, 2, 1, 6, 4] 





要 产生 随机 整数 ， 可 以 使 用 random.randint(): 





>>> random.randint(0,10) 


>>> random.randint(0,10) 
>>> random.randint(0,10) 
>>> random.randint(0,10) 


>>> random.randint(0,10) 


10 
>>> random.randint(0,10) 
3 


>>> 








要 产生 0 到 1 之 间 均 匀 分 布 的 浮 点 数值 ， 可 以 使 


用 random.random0): 


>>> random.random( ) 
0.9406677561675867 
>>> random.random( ) 
0 . 133129581343897 
>>> random. random() 
0. 4144991136919316 
>>> 





如 果 要 得 到 由 N 个 随机 比特 位 所 表示 的 整数 ， 
可 以 使 用 random.getrandbits(): 


>>> random.getrandbits(200) 


335837000776573622800628485064121869519521710558559406913275 
>>> 





3.11.3 ”讨论 





a 《用 马 特 赛 特 旋转 算法 (Mersenne 
Twister， 也 称 为 梅森 旋转 算法 ) 来 计算 随机 数 。 这 
是 一 个 确定 性 算法 ， 但 是 可 以 通过 random.seed0O 函 


数 来 修改 初始 的 种 子 值 。 示 例如 下 : 


random. seed() # Seed based on system time or os.ur 
random. seed(12345) # Seed based on integer given 
random.seed(b'bytedata' ) # Seed based on byte data 


除了 以 上 展示 的 功能 外 ，random 模 块 还 包含 有 
计算 均 色 分布、 高 斯 分 布 和 其 他 概率 分 布 的 函数 。 
比如 ，random.uniform() 可 以 计算 均匀 分 布 值 ， 而 
random.gaussO 则 可 计算 出 正 态 分 布 值 。 请 查阅 文档 
以 获得 对 其 他 所 支持 的 分 布 的 相关 信息 。 


random 模 块 中 的 函数 不 应 访 用 在 与 加 蜜 处 理 相 
关 的 程序 中 。 如 果 需 要 这 样 的 功能 ， 考 虑 使 用 ss] 模 
块 中 的 函数 来 丛 代 。 例 如 ，ssl.RAND_bytes() 可 以 
用 来 产生 加 蜜 安全 的 随机 字 节 序列 。 














3.12 时间 换算 
3.12.1 问题 


我 们 的 代码 需要 进行 简单 的 时 间 转 换 工 作 ， 比 
如 将 日 转换 为 秒 ， 将 小 时 转换 为 分 钟 等 。 


3.12.2 ”解决 方案 
我 们 可 以 利用 datetime 模 块 来 完成 不 同时 间 单 


位 间 的 换算 。 例 如 ， 要 表示 一 个 时 间 间 隔 ， 可 以 像 
这 样 创 建 一 个 timedelta 实 例 : 





>>> from datetime import timedelta 
>>> a = timedelta(days=2, hours=6) 
>>> b = timedelta(hours=4.5) 
>>>c=a+b 

>>> c.days 

2 


>>> c.seconds 
37800 
>>> c.seconds / 3600 


10.5 
>>> c.total_seconds() / 3600 
58.5 
>>> 








如 末 需 要 表示 特定 的 日 期 和 时 间 ， 可 以 创建 





datetime 实 例 并 使 用 标准 的 数学 运算 来 操纵 它们 。 
示例 如 下 : 


>>> from datetime import datetime 
>>> a = datetime(2012, 9, 23) 

>>> print(a + timedelta(days=10) ) 
2012-10-03 00:00:00 


datetime(2012, 12, 21) 
b-a 
.days 


>>> now = datetime. today() 

>>> print(now) 

2012-12-21 14:54:43.094063 

>>> print(now + timedelta(minutes=10) ) 
2012-12-21 15:04:43.094063 

>>> 





当 执行 计算 时 ， 应 该 要 注意 的 是 datetime 模 块 
是 可 正确 处 理 半年 的 。 示 例如 下 : 


>>> a = datetime(2012, 
>>> b = datetime(2012, 
>>> a - b 

datetime. timedelta(2) 
>>> (a - b).days 

2 

>>> C datetime(2013, 
>>> d datetime(2013, 
>>> (c - d).days 

1 

>>> 





3.12.3 ”讨论 





对 于 大 部 分 基本 的 日 期 和 时 间 操 控 问 题 ， 
datetime 模 块 已 足够 满足 要 求 了 。 如 果 需 要 处 理 更 
为 复杂 的 日 期 间 题 ， 比 如 处 理 时 区 、 模 糊 时 间 范 
恩 、 计 算 节 日 的 日 期 等 ， 可 以 试 试 dateutil 模 块 。 


为 了 举例 说 明 ， 可 以 使 用 dateutil.relativedelta() 
水 数 完成 许多 同 datetime 模 块 相似 的 时 间 计 算 。 然 
而 ，dateutil 的 一 个 显著 特点 是 在 处 理 有 关 月 份 的 问 
题 时 能 填补 一 些 datetime 模 块 留 下 的 空缺 (可 正确 
处 理 不 同月 份 中 的 天 数 ) 。 示 例如 下 : 


>>> a = datetime(2012，9，23) 
>>> a + timedelta(months=1) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'months' is an invalid keyword argument for this func 
>>> 








>>> from dateutil.relativedelta import 


relativedelta 
>>> a + relativedelta(months=+1) 


datetime.datetime(2012, 10, 23, 0, 0) 
>>> a + relativedelta(months=+4) 
datetime.datetime(2013, 1, 23, 0, 0) 
>>> 


>>> # Time between two dates 


datetime(2012, 12, 21) 
b-a 





>>> d 

datetime.timedelta(89) 

>>> d = relativedelta(b, a) 

>>> d 

relativedelta(months=+2, days=+28) 
>>> d.months 

2 

>>> d.days 

28 


>>> 





3.13 计算 上 周 5 的 日 期 
3.13.1 问题 


我 们 希望 有 一 个 通用 的 解决 方 采 能 找 出 一 周 中 
上 一 次 出 现 某 天 时 的 日 期 。 比 方 说 上 周 五 是 几 月 几 
5? 


与 





3.13.2 解决 方案 


Python 的 datetime 模 块 中 有 一 些 实 用 函数 和 交 
可 以 帮助 我 们 完成 这 样 的 计算 。 关 于 这 个 问题 ， 一 
个 优雅 、 通 用 的 解雇 方案 看 起 来 是 这 样 的 : 











from datetime import datetime, timedelta 


weekdays = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 
'Friday', 'Saturday', 'Sunday' ] 


def get_previous_byday(dayname, start_date=None): 
if start_date is None: 
start_date = datetime.today() 
day_num = start_date.weekday( ) 


day_num_target = weekdays. index(dayname ) 
days_ago = (7 + day_num - day_num_target) % 7 
if days_ago == 0: 
days_ago = 7 
target_date = start_date - timedelta(days=days_ago) 
return target_date 











在 交互 式 解释 融 环 境 中 使 用 这 个 函数 看 起 来 是 
这 样 的 : 


>>> datetime.today() # For reference 


datetime.datetime(2012, 8, 28, 22, 4, 30, 263076) 

>>> get_previous_byday('Monday' ) 

datetime.datetime(2012, 8, 27, 22, 3, 57, 29045) 

>>> get_previous_byday('Tuesday') # Previous week, not today 


datetime.datetime(2012, 8, 21, 22, 4, 12, 629771) 
>>> get_previous_byday('Friday' ) 
datetime.datetime(2012, 8, 24, 22, 5, 9, 911393) 
>>> 





可 选 的 start_date 参 数 可 以 通过 另 一 个 datetime 
实例 来 提供 。 例 如 : 


>>> get_previous_byday('Sunday', datetime(2012, 12, 21)) 
datetime.datetime(2012, 12, 16, ©, 0) 





>>> 





3.13.3 rr 


上 面 的 解决 方案 将 起 始 日 期 和 目标 日 期 映射 到 
它们 在 一 周 之 中 的 位 置 上 《周一 为 第 0 天 ， 依 此 类 
推 ) 。 然 后 用 取 模 运算 计算 上 一 次 目标 日 期 出 现时 








到 起 始 日 期 为 止 一 共 经 过 了 多 少 天 。 之 后 ， 从 起 始 
日 期 中 减 去 一 个 合适 的 timedelta 实 例 就 得 到 了 我 们 
所 要 的 日 期 。 


如 果 和 需要 执行 大 量 类 似 的 日 期 计算 ， 最 好 安 并 
python-dateutil 包 。 人 例如， 下面 这 个 例子 是 使 用 
dateutil 模 块 中 的 relativedelta0 函 数 来 执行 同样 的 计 
算 : 


>>> from datetime import datetime 

>>> from dateutil.relativedelta import relativedelta 
>>> from dateutil.rrule import * 

>>> d = datetime.now() 

>>> print(d) 

2012-12-23 16:31:52.718111 








>>> # Next Friday 


>>> print(d + relativedelta(weekday=FR) ) 
2012-12-28 16:31:52.718111 
>>> 


>>> # Last Friday 


>>> print(d + relativedelta(weekday=FR(-1) )) 
2012-12-21 16:31:52.718111 
>>> 





3.14 HS ANA 
3.14.1 问题 


我 们 有 一 些 代 码 需要 循环 迭代 当月 中 的 每 个 日 
期 ， 我 们 需要 一 种 高 效 的 方法 来 计算 出 日 期 的 范 
围 。 


3.14.2 ”解决 方案 


对 日 期 进行 循环 迭代 并 不 需要 事先 构建 一 个 包 
含 所 有 日 期 的 列表 。 只 需 计 算出 范围 的 开始 和 结 
日 期 ， 然 后 在 达 代 时 利用 datetime.timedelta 对 象 来 
VE H HARASS o 


下 面 这 个 函数 可 接受 任意 的 datetime 对 象 ， 并 
返回 一 个 包含 本 月 第 一 天 和 下 个 月 第 一 天 日 期 的 元 
组 。 示 例如 下 : 








from datetime import 


datetime, date, timedelta 
import calendar 


def 


get_month_range(start_date=None): 
if 


start_date is 


None: 
start_date = date.today().replace(day=1) 
_, days_in_month = calendar.monthrange(start_date.year, start_da 
end_date = start_date + timedelta(days=days_in_month) 
return 


(start_date, end_date) 





当 准 备 好 这 个 函数 后 ， 对 日 期 范围 做 循环 迭代 
BLUSE SAP Fi fia] As 








>>> a_day = timedelta(days=1) 
>>> first_day, last_day = get_month_range() 
>>> while 


first_day < last_day: 
print 


(first_day) 


first_day += a_day 


2012-08-01 


#... and so on... 





3.14.3 ”讨论 
上 面 的 代码 首先 计算 出 相应 月 份 中 第 一 天 的 日 








期 。 一 种 快速 求解 的 方法 是 利用 date 或 者 datetime 对 
象 的 replace() 方 法 ， 只 要 将 属性 days 设 为 1 束 可 以 
了 。 关 于 replace() 方 法 ， 一 个 好 的 方面 就 是 它 创 建 
出 的 对 象 和 我 们 的 输入 对 象 类 型 是 一 致 的 。 因 此 ， 
如 果 输 入 是 一 个 date 实 例 ， 那 得 到 的 结果 也 是 date 
实例 。 同 样 ， 如 果 输 入 是 datetime 实 例 ， 得 到 的 也 


是 datetime 实 例 。 


此 外 ， 我 们 用 calendar.monthrange0O) 函 数 来 找 出 
每 求解 的 月 份 中 有 多 少 天 。 当 需要 得 到 有 关 日 历 方 
面 的 基本 信息 时 ，calendar 模 块 都 会 非常 有 用 。 
monthrangeO 是 其 中 唯一 的 一 个 可 返回 元 组 的 函 
数 ， 元 组 中 包含 当月 第 一 个 工作 日 的 日 期 呀 以 及 
当月 的 天 数 〈28 一 31) 。 





























一 旦 知道 了 这 个 月 中 有 多 少 天 ， 那 么 结束 日 期 
束 可 以 通过 在 起 始 日 期 上 加 上 一 个 合适 的 timedelta 
对 象 来 表示 。 尽 管 很 微不足道 ， 但 本 节 给 出 的 解决 
方案 中 一 个 重要 的 方面 就 是 结束 日 期 并 不 包含 在 范 
内 《因为 它 实 际 上 是 下 个 月 的 第 一 天 ) 。 这 刚好 
应 对 了 Python 中 切片 和 range 操 作 的 行为 ， 这 些 操 作 
永远 不 会 将 结束 点 包含 在 内 。 


要 循环 迭代 日 期 范围 ， 我 们 这 里 采用 了 标准 的 
算术 以 及 比较 操作 符 。 比 如 ，timedelta 实 例 可 用 来 
递增 日 期 ， 而 < 操作 符 用 来 检查 当前 日 期 是 否 超过 
了 结束 日 期 。 


最 理想 的 方法 是 创建 一 个 专门 处 理 日 期 的 也 
数 ， 而 且 用 法 和 Python 内 建 的 range0 一 样 。 笠 运 的 
是 ， 用 生成 器 来 实现 这 样 一 个 函数 真 的 是 非常 容 
Ty: 





























def 


date_range(start, stop, step): 
while 


start < stop: 
yield 


start 
start += step 


pO 


下 和 面 是 使 用 这 个 函数 的 示例 : 





date_range(datetime(2012, 9, 1), datetime(2012,10,1), 
timedelta(hours=6) ): 


print 





这 里 要 再 一 次 说 明 ， 之 所 以 上 述 实 现 会 如 此 简 
单 ， 一 个 很 重要 的 原因 就 在 于 日 期 和 时 间 可 以 通过 
标准 的 算术 和 比较 操作 符 来 进行 操作 。 





3.15 TITE FEA H HH 
3.15.1 问题 
我 们 的 应 用 程序 接收 到 字符 串 形 式 的 临时 数 


据 ， 但 是 我 们 想 将 这 些 字 符 串 转换 为 datetime 对 
象 ， 以 此 对 它们 执行 一 些 非 字 符 串 的 操作 。 





3.15.2 ”解决 方案 


一 般 来 说 ，Python 中 的 标准 模块 datetime 是 用 
来 处 理 这 种 问题 的 简单 方案 。 示 例如 下 : 





>>> from datetime import datetime 

>>> text = '2012-09-20' 

>>> y = datetime.strptime(text, '%Y-%m-%d' ) 
>>> z = datetime.now() 

>>> diff =z - y 


>>> diff 
datetime.timedelta(3, 77824, 177393) 
>>> 





3.15.3 ”讨论 


datetime.strptime() 方 法 支持 许多 格式 化 代码 ， 
比如 %Y 代 表 以 4 位 数字 表示 的 年 份 ， 而 %m 代 表 以 2 





位 数字 表示 的 月 份 。 同 样 值 得 一 提 的 是 ， 这 些 格式 
化 占 位 符 也 可 以 反 过 来 用 在 将 datetime 对 象 转换 为 
字符 串 上 。 如 果 需 要 以 字符 串 形 式 来 表示 datetime 
Yt RIF A ALLE ST RE UAB SSE, BEYER 
场 了 。 


比如 ， 假 设 有 一 些 代 码 生 成 了 datetime 对 象 ， 
但 是 需要 将 它们 格式 化 为 美观 、 方 便 人 们 阅读 的 日 
期 形式 ， 以 便 将 其 放 在 上 自动 生成 的 信件 或 报告 的 开 
SEAR; 

















>>> Z 
datetime.datetime(2012, 9, 23, 21, 37, 4, 177393) 
>>> nice_z = datetime.strftime(z, '%A %B %d, %Y') 
>>> nice_z 


"Sunday September 23, 2012' 
>>> 








这 里 值得 一 提 的 是 strptime() 的 性 能 通常 比 我 们 
想象 的 还 要 糟糕 许多 ， 这 是 因为 该 函数 是 用 纯 
Python 代码 实现 的 ， 而 且 需 要 处 理 各 种 各 样 的 系统 
区 域 设 定 。 如 果 要 在 代码 中 解析 大 量 的 日 期 ， 而 且 
事先 知道 日 期 的 准确 格式 ， 那 么 目 行 实现 一 个 解决 
方案 可 能 会 获得 巨大 的 性 能 提升 。 例 如 ， 如 果 知 道 
日 期 是 以 *YYYY-MM-DD” 的 形式 表示 的 ， 可 以 像 
这 样 自己 编写 一 个 函数 : 


from datetime import datetime 


def parse_ymd(s): 
year_s, mon_s, day_s = s.split('-') 
return datetime(int(year_s), int(mon_s), int(day_s)) 





我 们 对 此 进行 了 测试 ， 上 面 这 个 函数 比 
datetime.strptime() 快 了 7 倍 多 。 如 果 需 要 处 理 大 量 涉 
及 日 期 的 数据 时 ， 这 很 可 能 束 是 需要 考虑 的 问题 
Ja 


3.16 ”处 理 涉 及 到 时 区 的 日 期 问题 


3.16.1 问题 





我 们 有 一 个 电话 会 议定 在 芝加哥 时 间 2012 年 12 
月 21 日 上 午 9:30 举 行 。 那 么 在 印度 班加罗尔 的 朋友 
应 该 在 当地 时 间 几 点 出 现 才 能 赶 上 会 议 ? 








3.16.2 解决 方案 


对 于 几乎 任何 涉及 时 区 的 问题 ， 都 应 该 使 用 
pytz 模 块 来 解决 。 这 个 Python 包 提供 了 奥 尔 森 时 区 
数据 库 ， 这 也 是 许多 语言 和 操作 系统 所 使 用 的 时 区 
信息 标准 。 


pyzt 模 块 主要 用 来 本 地 化 由 datetime 库 创建 的 日 
期 。 例 如 ， 下 面 这 段 代 码 告诉 我 们 如 何以 芝加哥 时 
间 来 表示 日 期 : 











>>> from datetime import datetime 

>>> from pytz import timezone 

>>> d = datetime(2012, 12, 21, 9, 30, 0) 
>>> print(d) 

2012-12-21 09:30:00 


>>> 


>>> # Localize the date for Chicago 


>>> central = timezone('US/Central' ) 
>>> loc_d = central.localize(d) 

>>> print(loc_d) 

2012-12-21 09:30:00-06:00 


>>> 





一 旦 日 期 经 过 了 本 地 化 处 理 ， 它 丈 可 以 转换 为 
其 他 的 时 区 。 要 知道 同一 时 间 在 班加罗尔 是 几 点 ， 
可 以 这 样 做 : 


>>> # Convert to Bangalore time 
>>> bang_d = loc_d.astimezone(timezone('Asia/Kolkata' ) ) 
>>> print 


(bang_d) 
2012-12-21 21:00:00+05: 30 
>>> 





如 果 打 算 对 本 地 化 的 日 期 做 算术 计算 ， 需 要 特 
别 注 意 夏 令 时 转换 和 其 他 方面 的 细节 。 比 如 ，2013 
年 美国 的 标准 夏令 时 于 本 地 时 间 3 月 13 日 凌晨 2 点 开 
始 《 此 时 时 间 要 往 前 拨 一 小 时 ) 。 如 果 和 直接 进行 算 
术 计 算 就 会 得 到 错误 的 结果 。 例 如 : 











>>> d = datetime(2013, 3, 10, 1, 45) 
>>> loc_d = central.localize(d) 
>>> print 


(loc_d) 

2013-03-10 01:45:00-06:00 

>>> later = loc_d + timedelta(minutes=30) 
>>> print 


(later) 
2013-03-10 02:15:00-06:00 # WRONG! WRONG! 
>>> 





结果 是 错误 的 ， 因为 上 面 的 代 偶 没有 把 本 地 时 
间 中 跳 过 的 1 小 时 给 算 上 。 要 解决 这 个 问题 ， 可 以 
使 用 timezone 对 象 的 normalize0) 方 法 。 示 例如 下 : 





>>> from datetime import timedelta 

>>> later = central.normalize(loc_d + timedelta(minutes=30) ) 
>>> print(later) 

2013-03-10 03:15:00-05:00 


>>> 





3.16.3 ”讨论 


JI Y AVERT SR RE Pat, UE FS SR Ah ARS St 
则 的 方法 是 将 所 有 的 日 期 都 转换 为 UTC (世界 统一 
时 间 ) 时 间 ， 然 后 在 所 有 的 内 部 存储 和 处 理 中 都 使 
用 UTC 时 间 。 示 例如 下 : 





>>> print(loc_d) 

2013-03-10 01:45:00-06:00 

>>> utc_d = loc_d.astimezone(pytz.utc) 
>>> print(utc_d) 


2013-03-10 07:45:00+00:00 
>>> 


一 旦 转换 为 UTC 时 间 ， 束 不 用 担心 夏令 时 以 及 
其 他 那些 麻烦 事 了 。 因 此 ， 我 们 可 以 像 之 前 那样 对 
日 期 执行 普通 的 算术 运算 。 如 果 需 要 将 日 期 以 本 地 
‘gill 只 需 将 其 转换 为 合适 的 时 区 即 可 。 示 例 
HP: 








>>> later_utc = utc_d + timedelta(minutes=30) 
>>> print 


(later_utc.astimezone(central)) 


2013-03-10 03:15:00-05:00 
>>> 





在 同时 区 打交道 时 ， 一 个 常见 的 问题 是 如 何 知 
道 时 区 的 名 称 ? 例如， 在 本 节 的 示例 中 我 们 怎么 知 
道 “Asia/Kolkata” 才 是 表示 印度 时 间 的 正确 时 区 呢 ? 
要 找 出 时 区 名 称 ， 可 以 考察 一 下 
pyzt.country_timezones， 这 是 一 个 字典 ， 可 以 使 用 
ISO 3166 国 家 代码 作为 key 来 查询 。 示 例如 下 : 








>>> pytz.country_timezones['IN'] 
['Asia/Kolkata' ] 
>>> 


当 读 到 这 里 的 时 候 ， 根 据 PEP 431 的 描述 ， 为 
了 增强 对 时 区 的 支持 pyzt 模 块 可 能 将 不 再 建议 使 
用 。 但 是 ， 本 节 中 提 到 的 许多 建议 依然 是 适用 的 
( 即 ， 建 议 使 用 UTC 时 间 等 ) 。 














[返回 值 为 0 一 6， 依 次 代表 周一 到 周 日 。 一 一 
译 者 注 
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迭代 是 Python 中 最 强 有 力 的 特性 之 一 。 从 高 层 
次 看 ， 我 们 可 以 简 蛙 地 把 迭代 看 做 是 一 种 处 理 序列 
中 元 素 的 方式 。 但 是 这 里 还 有 着 更 多 的 可 能 ， 比 如 
创建 目 己 的 可 友 代 对 象 、 在 itertools 横 块 中 选择 实用 
ENTER BET. REAL Ras PRISE. ANSE) A pp ce he 
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4.1 FIIV (Car P HIIR 


4.1.1 问题 





RAI ries BEART IE POM RPR, (EE 
基于 菏 种 原因 不 能 也 不 想 使 用 for 循 环 。 


4.1.2 ”解决 方案 


Boys il IAAT AR Pog, BY MEH 
next RO Aa BOS TASKS ak Stoplteration 
异 篆 。 人 例如， 下面 这 个 例子 采用 手工 方式 从 文件 中 
读 取 文本 行 : 








with 


open('/etc/passwd') as 


while 


True: 
line = next(f) 
print 


(line, end='') 
except StopIteration 


pass 








— AK, Stoplteration tt % ze H KM RIF TIE 





代 结 束 的 。 但 是 ， 如 果 是 手动 使 用 nextO0 HRB 
子 中 那样 ) ， 也 可 以 命令 它 返回 一 个 结束 值 ， 比 如 
说 None。 示 例如 下 : 





with 


open('/etc/passwd') as 


f 
while 


True: 


line = next(f, None) 
if 


line is 


None: 
break 


print 


(line, end='') 





4.1.3 ”讨论 
大 多 数 情况 下 ， 我 们 会 用 for 语 句 来 访问 可 迭代 








对 象 中 的 元 系 。 人 但是， 偶尔 也 会 伴 到 需要 对 底层 迭 
代 机 制 做 更 糊 细 控制 的 情况 。 因 此 ， 了 解 迭 代 时 实 
际 肥 生 了 些 什么 是 很 有 帮助 的 。 


下 面 的 交互 式 例子 对 过 代 时 发 生 的 基本 过 程 做 
了 解释 说 明 : 





>>> items = [1, 2, 3] 
>>> # Get the iterator 


>>> it = iter(items) # Invokes items. __iter__() 


>>> # Run the iterator 


>>> next(it) # Invokes it.__next__() 


1 
>>> next(it) 
2 


>>> next(it) 
3 


>>> next(it) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

StopIteration 

>>> 





本 章 后 面 的 示例 将 对 迭代 技术 进行 扩展 ， 因 此 





假定 读者 对 基本 的 迭代 协议 已 有 所 了 解 。 请 确保 将 
这 第 一 个 例子 深 深刻 在 脑海 里 。 








4.2 RHR 


4.2.1 问题 





我 们 构建 了 一 个 日 定义 的 容 莫 对 象 ， 其 内 部 持 
有 一 个 列表 、 元 组 或 其 他 的 可 迭代 对 象 。 我 们 想 让 
自己 的 新 容 颖 能够 完成 迭代 操作 。 


4.2.3 解决 方案 
一 般 来 说 ， 我 们 所 要 做 的 束 是 定义 一 个 


_ iter__() 方 法 ， 将 迭代 请 求 委 托 到 对 象 内 部 持 有 的 
容器 上 。 示 例如 下 : 





class Node: 


def _ init__(self, value): 
Self._value = value 
self. children = [] 


def _ repr_ (self): 
return 'Node({!r})'.format(self. value) 


def add_child(self, node): 
self. _children.append(node) 


def _iter__(self): 
return iter(self. children) 


# Example 


ain__': 


if __name__ == '_m 
root = Node(0) 
childi = Node(1) 
child2 = Node(2) 
root.add_child(child1) 
root.add_child(child2) 
for ch in root: 


int(ch) 
# Outputs Node(1), Node(2) 





在 这 个 例子 中 ，_ iter ODER a fe HK 
代 请 求 转发 给 对 象 内 部 持 有 的 _children 属 性 上 。 


4.2.4 讨论 


Python 的 从 代 协议 要 求 _iter_0 返 回 一 个 特殊 
的 欠 代 器 对 象 ， 由 该 对 象 实现 的 _next (方法 来 
完成 实际 的 迭代 。 如 果 要 做 的 只 是 迭代 男 一 个 容 恬 
中 的 内 容 ， 我 们 不 必 担 心底 层 细 节 是 如 何 工 作 的 ， 
所 要 做 的 就 是 转发 迭代 请 求 。 


示例 中 用 到 的 iterO 函 数 对 代码 做 了 一 定 程 度 的 
简化 。iter(s) 通 过 调用 s._ iter 0 来 简单 地 返回 底层 
的 迄 代 器 ， 这 和 len(s) 调 用 s._ len 0 的 方式 是 一 样 
的 。 


4.3 HÆ ple till E ir I FU N 


4.3.1 问题 





RIEKA H ERARE, ERK H 
于 常见 的 内 建 函 数 〈 即 rangeO0、reversed 0 等 ) 。 


4.3.2 ”解决 方案 
如 果 想 实现 一 种 新 的 迭代 模式 ， 可 使 用 生成 器 


困 数 来 定义 。 这 里 有 一 个 生成 右 可 产生 东 个 范围 内 
He AB: 





def 


frange(start, stop, increment): 


while 


x < stop: 
yield 


x += increment 





HALHA RA a LME H forti RIAR, 
By HEI Heth aJ LAW E YS FRY R H 7 He H PRI BL 
《例如 sum()、list0 等 ) 来 使 用 。 示 例如 下 : 


ee 4, 0.5): 
print 


0 

0.5 
1.0 
1.5 
2.0 
20 
3.0 
3.5 


>>> list(frange(0, 1, 0.125)) 
[0, 0.125, 0.25, 0.375, 0.5, 0.625, 0.75, 0.875] 
>>> 





4.3.3 ”讨论 


函数 中 只 要 出 现 了 yield 语 名 就 会 将 其 转变 成 一 
个 生成 器 。 与 普通 函数 不 同 ， 生成 器 只 会 在 响应 迁 





代 操 作 时 才 运 行 。 这 里 有 一 个 实验 性 的 例子 ， 我 们 
可 以 试 试看 ， 以 了 解 这 样 的 函数 的 确 层 机 制 完 葛 是 
如 何 运 转 的 : 





>>> def 


countdown(n): 
print 


('Starting to count from', n) 


while 
n> 0 
si yield 
n 
n -= 1 
print 


>>> # Create the generator, notice no output appears 


>>> c = countdown(3) 
>>> C 
<generator object countdown at 0x1006a0af0> 


>>> # Run to first yield and emit a value 


>>> next(c) 
Starting to count from 3 
3 


>>> # Run to the next yield 


>>> next(c) 


>>> # Run to next yield 


>>> next(c) 
1 


>>> # Run to next yield (iteration stops) 


>>> next(c) 

Done! 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

StopiIteration 

>>> 
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不 必 为 此 操心 。 


4.4 KWER 


4.4.1 问题 





我 们 正在 构建 一 个 自 定 义 的 对 象 ， 希望 它 可 以 
文 持 夺 代 操作 ， 但 是 也 希望 能 有 一 种 简单 的 方式 来 
SEMIS AN IW « 








4.4.2 ”解决 方案 


目前 来 看 ， 要 在 对 象 上 实现 可 迭代 功能 ， 最 黎 
单 的 方式 束 是 使 用 生成 占 函 数 。 在 4.2 市 中 ， 我 们 用 
Node 类 来 表示 树 结构 。 也 许 你 想 实现 一 个 迭代 器 能 
ee 
BOE: 








class Node: 


def _ init__(self, value): 
self. value = value 
self. children = [] 


def _ repr_ (self): 
return 'Node({!r})'.format(self. value) 


def add_child(self, node): 
self. _children.append(node) 


def _ iter_ (self): 
return iter(self._children) 


def depth_first(self): 
yield self 
for c in self: 
yield from c.depth_first() 


# Example 


if __name__ == '__main_': 
root = Node(0) 
childi = Node(1) 
child2 = Node(2) 
root.add_child(child1) 
root.add_child(child2) 
childi1.add_child(Node(3) ) 


child1.add_child(Node(4)) 
child2.add_child(Node(5)) 


for ch in root.depth_first(): 
print(ch) 
# Outputs Node(0), Node(1), Node(3), Node(4), Node(2), Node( 





在 这 份 代 码 中 ，depth_first0 的 实现 非常 易于 阅 
读 ， 描 述 起 来 也 很 方便 。 它 首先 产生 出 自身 ， 然 后 
迭代 每 个 子 节点 ， 利 用 子 市 点 的 depth_first() 方 法 
(通过 yield from 语 句 ) 产生 出 其 他 元 素 。 





4.43 讨论 
Python 的 友 代 协议 要 求 _iter_(0 返 回 一 个 特殊 


MERRER R, ZR RAEM next ONY, 
并 使 用 Stoplteration+ 异常 are ee 的 完成 二 但 是 ; 
实现 这 样 的 对 象 常 常会 比较 繁琐 。 例 如 ， 下 面 的 代 
AER 了 depth_first() 的 男 一 种 这 里 使 用 一 
个 相关 联 的 迭代 器 类 。 








class Node: 
def _ init__(self, value): 
self._value = value 
self. children = [] 


def _ repr_ (self): 
return 'Node({!r})'.format(self._ value) 


def add_child(self, other_node): 
self. _children.append(other_node) 


def _iter__(self): 
return iter(self. children) 


def depth_first(self): 
return DepthFirstIterator(self) 


Class DepthFirstIterator(object): 


Depth-first traversal 


def _ init__(self, start_node): 
self._node = start_node 
self._children_iter = None 
self. _child_iter = None 


def _iter__(self): 
return self 


def __next__(self): 
# Return myself if just started; create an iterator for chil 


if self._children_iter is None: 
self. _children_iter = iter(self._node) 


return self. node 


# If processing a child, return its next item 


elif self. child iter: 


try: 
nextchild = next(self._child_iter) 


return nextchild 

except StopIteration: 
self. _child_iter = None 
return next(self) 


# Advance to the next child and start its iteration 


else: 
self. _child_iter = next(self._children_iter).depth_first 


return next(self) 





DepthFirstIterator 类 的 工作 方式 和 生成 器 版 本 的 
实现 相同 但 是 却 复 杂 了 许多 ， 因 为 欠 代 器 必须 维护 
人 欠 代 过 程 中 许多 复杂 的 状态 ， 要 记 住 当前 欠 代 过 程 





进行 到 哪里 了 。 坦 白 说 ， 没 人 豆 欢 编写 这 样 令 人 费 
解 的 代码 。 把 从 代 如 以 生成 占 的 形式 来 定义 束 箔 大 


4.5 REŻ 
4.5.1 问题 

我 们 想 要 反 向 迭代 序列 中 的 元 素 。 
4.5.2 RITR 


FY LE H PY Æ Kreversed0 A AU SEEM J ER. 
示例 如 下 : 


>>> a = [1, 2, 3, 4] 
>>> for 


in 


reversed(a): 


print 





反 回 迭代 只 有 在 待 处 理 的 对 象 拥有 可 确定 的 大 
小 ， 或 者 对 象 实 现 了 __reversed 0 特殊 方法 时 ， 才 
能 萎 效 。 如 果 这 两 个 条 件 都 无 法 满足 ， 则 必须 首先 
将 这 个 对 象 转换 为 列表 。 示 例如 下 : 


f = open('somefile') 
for 





line in 


reversed(list(f)): 


(line, end='') 





请 注意 ， 像 上 述 代码 中 那样 将 可 迭代 对 象 转换 
为 列表 可 能 会 消耗 大 量 的 内 存 ， 尤 其 是 当 可 迭代 对 
象 较 大 时 更 是 如 此 。 


4.5.3 讨论 

许多 程序 员 都 没有 意识 到 如 果 他 们 实现 了 
_reversed_ (0 〇 方法， 那么 就 可 以 在 自 定 义 的 类 上 实 
现 反 同和 迭代 。 示 例如 下 : 


class Countdown: 


def _ init__(self, start): 
self.start = start 
# Forward iterator 


def _iter__(self): 
n = self.start 
while n > 0: 
yield n 
n -= 1 


# Reverse iterator 


def _ reversed_ (self): 


n=1 

while n <= self.start: 
yield n 
n += 1 





FE SLAPS IRIE Ca A EARI AE FEI Te 
因为 这 样 束 无 需 先 把 数据 放 到 列表 中 ， 然 后 再 反问 
RENIER T s 
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4.6.1 问题 

我 们 想 定 义 一 个 生成 器 函数 ， 但 是 它 还 涉及 一 


些 额外 的 状态 ， 我 们 而 望 能 以 东 种 形式 将 这 些 状 态 
ae Bean AP o 





4.6.2 ”解决 方案 


如 果 想 让 生成 器 将 状态 暴露 给 用 户 ， 别 忘 了 可 
以 轻易 地 将 其 实现 为 一 个 类 ， 然 后 把 生成 器 函数 的 
代码 放 到 _iter _“() 方 法 中 即 可 。 示 例如 下 : 











from collections import deque 


class linehistory: 
def _ init__(self, lines, histlen=3): 
self.lines = lines 
self.history = deque(maxlen=histlen) 


def _iter__(self): 
for lineno, line in enumerate(self.lines,1): 
self. history.append((lineno, line) ) 
yield line 


def clear(self): 
self. history.clear() 


E 


要 使 用 这 个 类 ， 可 以 将 其 看 做 是 一 个 普通 的 生 
成 器 函数 。 但 是 ， 由 于 它 会 创建 一 个 类 实例 ， 所 以 
可 以 访问 内 部 属性 ， 比 如 history 属 性 或 者 cdlear() 方 
es 示例 如 下 : 








with 


open('somefile.txt') as 


f: 
lines = linehistory(f) 
for 


line in 


lines: 
if 


'python' in 


line: 
for 


lineno, hline in 


lines.history: 
print 


('{}:{}'.format(lineno, hline), end='') 





46.3 ”讨论 


AS Ema JA IRE aA Sa, B, aa 
E JA FA RR ARRERA AI o URE a BR Br 
要 以 不 寻 第 的 方式 同 程 序 中 其 他 部 分 交互 的 话 比 
如 其 圳 属性， 允许 通过 方法 调用 来 获得 控制 等 〉， 
那 融 会 导致 出 现 相 当 复 杂 的 代码 。 如 宋 遇 到 了 这 种 
情况 ， 束 像 示 例 中 做 的 那样 ， 用 类 来 定义 就 好 了 。 
将 生成 器 函数 定义 在 _iter_() 方 法 中 并 没有 对 算法 
做 任何 改变 。 由 于 状态 只 是 类 的 一 部 分 ， 这 一 事实 
使 得 我 们 可 以 很 容易 将 其 作为 属性 和 方法 来 提供 给 
用 户 交 互 。 











上 面 所 示 的 方法 有 一 个 潜在 的 微妙 之 处 ， 那 就 
是 如 果 打算 用 除了 for 循 环 之 外 的 技术 来 驱动 友 代 过 
程 的 话 ， 可 能 需要 额外 调用 一 次 iter0。 比 方 说 : 





>>> f = open('somefile.txt' ) 
>>> lines = linehistory(f) 
>>> next(lines) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: '‘linehistory' object is not an iterator 


>>> # Call iter() first, then start iterating 


>>> it = iter(lines) 
>>> next(it) 

"hello world\n' 

>>> next(it) 

"this is a test\n' 
>>> 





4.7 ”对 迭代 器 做 切片 操作 
4.7.1 问题 


我 们 想 对 由 运 代 豆 产 生 的 数据 做 切片 处 理 ， 但 








是 普通 的 切片 操作 符 在 这 里 不 管用 。 
4.7.2 ”解决 方案 


BMT IE TR aS AE a HT) BRE 
itertools.islice() PIB TEFEN CFE. ANIL TF: 





True: 
TT yield 


>>> c = count(0) 

>>> c[10:20] 

Traceback (most recent call last): 
File "<stdin>", line 1, in 


<module> 


TypeError 
'generator' object is not 


subscriptable 


>>> # Now using islice() 


>>> import itertools 


>>> for 


itertools.islice(c, 10, 20): 
print 


(x) 
10 
11 
12 
13 
14 
15 
16 
17 
18 


19 
>>> 





4.7.3 ”讨论 


迭代 器 和 生成 器 是 没 法 执行 普通 的 切片 操作 
的 ， 这 是 因为 不 知道 它们 的 长 上 度 是 多 少 〈 而 且 它 们 
也 没有 实现 索引 ) 。isliceO) 产 生 的 结果 是 一 个 迭代 
髓 ， 它 可 以 产生 出 所 需要 的 切片 元 素 ， 但 这 是 通过 
访问 并 丢弃 所 有 起 始 索引 之 前 的 元 素来 实现 的 。 之 
后 的 元 素 会 由 islice 对 象 产 生出 来 ， 直 到 到 达 结 束 索 
引 为 止 。 


需要 重点 强调 的 是 islice0) 会 消耗 掉 所 提供 的 迭 
代 硕 中 的 数据 。 由 于 运 代 硕 中 的 元 素 只 能 访问 一 
次 ， 没 法 倒 回 去 ， 因 此 这 里 就 需要 引起 我 们 的 注意 
了 。 如 宋 之 后 还 需要 倒 回 去 访问 前 面 的 数据 ， 那 也 
许 束 应 该 完 将 数据 转 到 列表 中 去 。 




















4.8 跌 过 可 友 代 对 象 中 的 前 一 部 分 
TOR 


4.8.1 问题 


RA TAT ET IE POT aE (RAE, {ELEY 
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4.8.2 ”解决 方案 


itertools 模 块 中 有 一 些 函 数 可 用 来 解决 这 个 问 
站 。 第 一 个 是 itertools.dropwhile() 函 数 。 要 使 用 它 ， 
只 要 提供 一 个 函数 和 一 个 可 友 代 对 象 即 可 。 访 函数 
返回 的 迭代 器 会 丢弃 挥 序列 中 的 前 面 儿 个 元 素 ， 只 
要 它们 在 所 提供 的 函数 中 返回 True 即 可 H. è 
后 ， 序 列 中 剩余 的 全 部 元 素 都 会 产生 出 来 。 


为 了 说 明 ， 假 设 我 们 正在 读 取 一 个 文件 ， 文 件 
的 开头 有 一 系列 的 注释 行 。 示 例如 下 : 








>>> with 


open('/etc/passwd') as 


line in 


print 


(line, end='') 


HH 

# User Database 

# 

# Note that this file is consulted directly only when the system 
# in single-user mode. At other times, this information is provi 
# Open Directory. 


HH 
nobody: *:-2:-2:Unprivileged User:/var/empty:/usr/bin/false 
root:*:0:0:System Administrator:/var/root:/bin/sh 





如 果 想 跳 过 所 有 的 初始 注释 行 ， 这 里 有 一 种 方 


>>> from itertools import dropwhile 
>>> with open('/etc/passwd') as f: 


for line in dropwhile(lambda line: line.startswith('#'), 
print(line, end='') 


nobody: *:-2:-2:Unprivileged User:/var/empty:/usr/bin/false 
root:*:0:0:System Administrator:/var/root:/bin/sh 


>>> 








这 个 例子 是 根据 测试 函数 的 结果 来 跳 过 前 面 的 
元 素 。 如 果 恰 好 知道 要 跳 过 多 少 个 元 素 ， 那 么 可 以 
使 用 itertools.islice()。 示 例如 下 : 


>>> from itertools import islice 

>>> items = ['a', 'b', 'c', 1, 4, 10, 15] 

>>> for x in islice(items, 3, None): 
print(x) 





在 这 个 例子 中 ，isliceO0 的 最 后 一 个 参数 None 用 
RACAL BIST ICA ZONA cA, WAER 
要 前 3 个 元 素 〈 即 ， 表 示 切 片 [3:]， 而 不 是 [:3]) 。 


4.8.3 ”讨论 








dropwhile0 和 isliceO 都 是 很 方便 实用 的 函数 ， 


可 以 利用 它们 来 避免 写 出 如 下 所 示 的 混乱 代码 : 





with 


open('/etc/passwd') as 


# Skip over initial comments 


while 


True: 
line = next(f, '') 
if not 


line.startswith('#'): 
break 


# Process remaining lines 


while 


line: 


# Replace with useful processing 


print 


(line, end='') 
line = next(f, None) 


REFRAIN RP AN 8 — eh Lege ae 
元 素 进行 过 滤 也 是 有 所 区 别 的 。 例如 ， 本 节 第 一 
示例 也 许可 以 重 写 为 如 下 代码 : 











with 


open('/etc/passwd') as 


fa 
lines = (line for 


line in 


f if not 


line.startswith('#')) 
for 


line in 


lines: 
print 


(line, end='') 








这 么 做 显然 会 丢弃 开始 部 分 的 注释 行 ， 但 这 同 
样 会 于 莽 整 个 文件 中 出 现 的 所 有 注释 行 。 而 本 市 开 
始 给 出 的 解决 方案 只 会 丢弃 元 素 ， 直 到 有 菏 个 元 妹 
不 满足 测试 函数 为 止 。 那 之 后 的 所 有 剩余 元 素 全 部 
会 不 经 过 和 中选 而 二 接 返 回 。 


最 后 应 该 要 强调 的 是 ， 本 节 有 所 展示 的 技术 可 适 
用 于 所 有 的 可 达 代 对 象 ， 包 括 那 些 事 先 无 法 确定 大 
I 
的 对 象 。 








4.9 ” 达 代 所 有 可 能 的 组 合 或 排列 


4.9.1 问题 





我 们 力 对 一 系列 元 系 所 有 可 能 的 组 合 或 排列 进 
{TIEN 


4.9.2 ”解决 方案 


为 了 解决 这 个 问题 ，itertools 模 块 中 提供 了 3 个 
消 数 。 第 一 个 是 itertools.permutations() 一 一 它 接受 
一 个 元 素 集 合 ， 将 其 中 所 有 的 元 素 章 排列 为 所 有 可 
能 的 情况 ， 并 以 元 组 序列 的 形式 返回 〈 即 ， 将 元 素 
之 则 的 顺序 打 乱 成 所有 可 能 的 情况 ) 。 示 例如 下 : 

















>>> items = ['a', 'b', 'c'] 
>>> from itertools import 


permutations 
>>> for 


p in 


permutations(items): 


(p) 


(a "p3 'c') 
('a', C's 'b') 
('b', 'a', 'c') 
('b', Ciy 'a') 
Cy 'a', 'b') 
(etg ey ‘a') 
>>> 





如 果 想 得 到 较 短 长 度 的 所 有 全 排列 ， 可 以 提供 
一 个 可 选 的 长 度 参数 。 示 例如 下 : 


p in 


permutations(items, 2): 
print 





使 用 itertools.combinations() 可 产生 输入 序列 中 
所 有 元 系 的 全 部 组 合 形 式 。 示 例如 下 : 


>>> from itertools import combinations 
>>> for c in combinations(items, 3): 
print(c) 


(an 'b', 'c') 
>>> for c in combinations(items, 2): 
print(c) 


$ 


for c in combinations(items, 1): 
print(c) 





对 于 combinations0) 来 说 ， 元 素 之 间 的 实际 顺序 
是 不 予 考虑 的 。 也 就 是 说 ， 组 合 ('a', b] 和 组 合 (b， 
'a") 补 认为 是 相同 的 组 合 形 式 〈 因 此 只 会 产生 出 其 中 
一 种 ) 。 


当 产 生 组 合 时 ， 已 经 选择 过 的 元 素 将 从 可 能 的 
候选 元 系 中 移 除 挥 〈 即 ， 如 果 'a' 已 经 选 过 了 ， 那 么 
束 将 它 从 考虑 范围 中 去 挥 〉。 
itertools.combinations_with_replacement() 函 数 解放 了 
这 一 限制 ， 人 允许 相同 的 元 取得 到 多 次 选择 。 示 例如 











combinations_with_replacement(items, 3): 
print 
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4.9.3 ”讨论 


本 节 只 演示 了 一 部 分 itertools 模 块 的 强大 功 
能 。 尺 管 我 们 肯定 可 以 目 己 编写 代码 来 产生 排列 和 
组 合 ， 但 这 么 做 大 概 需要 我 们 好 好 思考 一 番 。 当 面 
对 看 起 来 很 复杂 的 迭代 问题 时 ， 应 该 总 是 先 去 查看 











itertools 模 块 。 如 末 问 题 比较 种 见 ， 那么 很 可 能 已 经 
有 现成 的 解决 方案 了 。 


4.10 ”以 索引 - 值 对 的 形式 迭代 序列 
4.10.1 问题 


我 们 想 欠 代 一 个 序列 ， 但 是 又 想 记 录 下 序列 中 
当前 处 理 到 的 元 素 索 引 。 


4.10.2 ”解决 方案 
内 建 的 enumerate() 函 数 可 以 非常 漂亮 地 解决 这 


个 问题 : 


>>> my_list = ['a', I 1 I 1 
>>> for 


idx, val in 


R list): 
print 


(idx, val) 





如 果 要 打印 出 规范 的 行 号 (这 种 情况 下 一 般 是 
从 1 开始 而 不 是 0) ， 可 以 传 入 一 个 start 参 数 作 为 起 
始 索引 : 


>>> my_list = ['a', 'b' 
>>> for 


idx, val in 


enumerate(my_list, 1): 


print 


(idx, val) 





IR Ts OU Ry ES ER OE ATS 
SA tea ita POET SW tral ag 了。 示例 
uP : 











def 


parse_data(filename): 
with 


open(filename, 'rt') as 


f: 
for 


lineno, line in 


enumerate(f, 1): 
fields = line.split() 
try 


count = int(fields[1]) 


except ValueError as 


print 


('Line {}: Parse error: {}'.format(lineno, e)) 








enumerate() 可 以 方便 地 用 来 跟踪 记录 特定 的 值 





出 现在 列表 中 的 偏 移 位 置 。 比 如 ， 如 果 想 将 文件 中 
的 单词 和 它们 所 出 现 的 行 之 则 建立 上 映射 天 系 ， 则 可 
以 通过 使 用 enumerate0) 来 将 每 个 单词 映射 到 文件 行 
相应 的 偏 移 位 置 来 实现 。 示 例如 下 : 








word_summary = defaultdict(list) 


with 


open('myfile.txt', 'r') as 
f: 

lines = f.readlines() 
for 


idx, line in 


enumerate(lines): 
# Create a list of words in current line 


words = [w.strip().lower() for 


line.split()] 
for 


word in 


words: 
word_summary[word].append(idx) 





处 理 完 文件 之 后 ， 如 条 打印 word_summary， 
将 得 到 一 个 字典 《准确 地 说 是 defaultdict) ， 而 且 每 
个 单词 都 是 字典 的 键 。 每 个 单词 键 所 对 应 的 值 就 是 
由 行 号 组 成 的 列表 ， 表 示 这 个 单词 曾 出 现 过 的 所 有 
行 。 如 果 单 词 在 一 行 之 中 出 现 过 2 次 ， 那 么 这 个 行 





写 束 会 记录 2 次 ， 这 使 得 我 们 可 以 识别 出 文本 中 各 
种 简单 的 韵律 。 





4.10.3 ”讨论 





对 于 那些 可 能 想 目 己 保存 一 个 计数 需 的 场景 ， 
enumerate(O 函 数 是 个 不 错 的 蔡 代 选择 ， 而 且 会 更 加 
便捷 。 我 们 可 以 像 这 样 编写 代码 : 


# Process line 


lineno += 1 





但 是 ， 通 种 更 加 优雅 的 做 法 是 使 用 


enumerate(): 





for 


lineno, line in 


enumerate(f): 
# Process line 





enumerate() 的 返回 值 是 一 个 enumerate 对 象 实 








例 ， A 可 返回 连续 的 元 组 。 元 组 由 
一 个 索引 值 和 对 传 入 的 序列 调用 nextO 而 得 到 的 值 
组 成 。 








尽管 只 是 个 很 小 的 问题 ， 这 里 还 是 值得 提 一 
下 。 有 时 候 ， 当 在 元 组 序列 上 应 用 enumerateO 时 ， 
如 果 元 组 本 里 也 被 分 解 展 开 的 话 束 会 出 错 。 要 正确 
处 理 元 组 序列 ， 必 须 像 这 样 编写 代码 : 








data = [ (1, 2), (3, 4), (5, 6), (7, 8) ] 


# Correct! 


for 
n, (x, y) in 


enumerate(data): 


# Error! 


for 


n, X, y in 


enumerate(data): 





4.11 同时 迭代 多 个 序列 
4.11.1 问题 


我 们 想 要 迭代 的 元 际 包 合 在 多 个 序列 中 ， 我 们 
想 同 时 对 它们 进行 迭代 。 


4.11.2 解决 方案 
可 以 使 用 zipO0 函 数 来 同时 和 迭代 多 个 序列 。 示 例 





如 下 





>>> xpts = [1, 5, 4, 2, 10, 7] 
>>> ypts = [101, 78, 37, 15, 62, 99] 
>>> for 


x, y in 
zip(xpts, ypts): 
ssa print 


(x,y) 


zip(a, b) 的 工作 原理 是 创建 出 一 个 迭代 器 ， 该 
迭代 器 可 产生 出 元 组 (x, y)， 这 里 的 x 取 自 序列 a， 而 
y 取 目 序 列 b。 当 其 中 某 个 输入 序列 中 没有 元 素 可 以 
继续 迄 代 时 ， 整 个 迭代 过 程 结束 。 因 此 ， 整 个 迭代 
的 长 度 和 其 中 最 短 的 输入 序列 长 度 相 同 。 示 例如 
下 : 








如 果 这 种 行为 不 是 所 需要 的 ， 可 以 使 用 
itertools.zip_longest() K(k. APIO F: 


>>> from itertools import zip_longest 
>>> for i in zip_longest(a,b): 
print(i) 


>>> for i in zip_longest(a, b, fillvalue=0): 


print(i) 


') 
1 1 ) 
") 
') 


WwW 
x 
'y 
Z 





4.11.3 讨论 





zip0 通 利用 在 需要 将 不 同 的 数据 配对 在 一 起 
时 。 例 如 ,假设 有 一 列 标题 和 一 列 对 应 的 值 ， 示 例 
如 下 : 


headers = ['name', 'shares', 'price' ] 
values = ['ACME', 100, 490.1] 








使 用 zip()， 可 以 将 这 些 值 配对 在 一 起 来 构建 一 
AFR, MAXIE: 


s = dict(zip(headers, values) ) 


此 外 ， 如 有 条 试看 产生 输出 的 话 ， 可 以 编写 这 样 
的 代码 : 








for 


name, val in 


Zip(headers, values): 








尽管 不 种 抑 ， 但 是 zipO 可 以 接受 多 于 2 个 序列 
作为 输入 。 在 这 种 情况 下 ， 得 到 的 结 末 中 元 组 里 的 
元 系数 量 和 输入 序列 的 数量 相同 。 示 例如 下 : 











2 
>>> b = [10, 11, 12] 


Zip(a, b, c): 
he print 


(1) 


(1, 10, 'x') 
(2, 11, 'y') 
(3, 12, 2z ) 
>>> 





最 后 需要 重点 强调 的 是 ，zipO 创 建 出 的 结 末 只 
古 一 个 达 代 絮 。 如 果 需 要 将 配对 的 数据 保存 为 列 
表 ， 那 么 请 使 用 list0) 函 数 。 示 例如 下 : 





>>> zip(a, b) 

<zip object at 0x1007001b8> 
>>> list(zip(a, b)) 

[(1, 10), (2, 11), (3, 12)] 


>>> 





4.12 EA ERIR a PEITIEN 


4.12.1 问题 





我 们 需要 对 许多 对 象 执 行 相同 的 操作 ， 但 是 这 
些 对 象 包含 在 不 同 的 容 喜 内 ， 而 我 们 希望 可 以 避免 
写 出 区 套 的 循环 处 理 ， 保 持 代码 的 可 读 性 。 


4.12.2 ”解决 方案 


itertools.chain() 方 法 可 以 用 来 简化 这 个 任务 。 
它 接 受 一 系列 可 迭 代 对 象 作为 输入 并 返回 一 个 友 代 
As, IME AS HE He BOC TE tt —“P SSC 你 实 
际 上 是 在 对 多 个 容器 进行 迭代 。 为 了 说 明 清 楚 ， 请 
考虑 下 面 这 个 例子 : 











>>> from sha aaa import chain 
2, 3, 4] 
了 


>>> b = ['x', y ta] 
>>> for x in chain(a, b): 
print(x) 


V NX KX BPWNER- : 


V 
V 


在 程序 中 ，chain0 第 见 的 用 途 是 想 一 次 性 对 所 
有 的 元 素 执 行 某 项 特定 的 操作 ， 但 是 这 些 元 素 分 散 
在 不 同 的 集合 中 。 比 如 : 











# Various working sets of items 
active_items = set() 
inactive_items = set() 


# Iterate over all items 
for 


chain(active_items, inactive_items): 
# Process item 





采用 chain() 的 解决 方案 比 下 面 这 文 种 写 两 个 单独 
的 循环 要 优雅 得 多 





item in 


active_items: 
# Process item 


for 


item in 


inactive_items: 
# Process item 





4.12.3 ”讨论 


itertools.chain0) 可 接受 一 个 或 多 个 可 迭代 对 象 
ERER PRESB MENA, WISTS AT 
连续 访问 并 返回 你 提供 的 每 个 可 迭代 对 象 中 的 元 
素 。 尽 管区 别 很 小 ， 但 是 chain() 比 首先 将 各 个 序列 
合并 在 一 起 然后 再 友 代 要 更 加 高 效 。 示 例如 下 : 








# Inefficent 
for 


x in 


# Better 
for 





第 一 种 情况 中 ，a +b 操 作 产生 了 一 个 全 新 的 序 
列 ， 此 外 还 要 求 a 和 b 是 同一 种 类 型 。chain() 并 不 会 
做 这 样 的 操作 ， 因 此 如 末 输 入 序列 很 大 的 话 ， 在 内 





存 的 使 用 上 chain0) 就 会 高 效 得 多 ， 而 且 当 可 迭代 对 
象 之 间 不 是 同一 种 类 型 时 也 可 以 轻松 适用 。 


4.13 ”创建 处 理 数 据 的 管道 
4.13.1 问题 


我 们 力 以 流水 线 却 的 形 陈 对 数据 进行 迭代 处 理 
(类 似 UNIX 下 的 管道 ) 。 比 方 说 我 们 有 海量 的 数 
据 需 要 处 理 ， 但 是 没 法 完全 将 数据 加 载 到 内 存 中 
ear 


4.13.2 ”解决 方案 


生成 如 函 数 是 一 种 实现 宜 道 机 制 的 好 方法 。 为 
了 说 明 ， 假 设 我 们 有 一 个 超大 的 目录 ， 其 中 都 是 想 
要 处 理 的 日 志文 件 : 


foo/ 
access-log-012007.gz 
access-log-022007.gz 
access-log-032007.gz 





access-log-012008 
bar/ 
access-log-092007.bz2 


access-log-022008 





假设 每 个 文件 都 包含 如 下 形式 的 数据 行 


124.115.6.12 = [10/Jul/2012:00:18:50 -0500] "GET /robots.txt 
210,.212.209.67 - [10/Jul1/2012:00:18:51 -0500] "GET /ply/ ..." 
210 .212 .209 .67 - [10/Jul/2012:00:18:51 -0500] "GET /favicon , 工 C 
61.135.216.105 - [10/Jul1/2012:00:20:04 -0500] "GET /blog/atom. 





要 处 理 这 些 文件 ， 可 以 定义 一 系列 小 型 的 生成 
名 冰 数 ， 每 个 函数 执行 特定 的 独立 任务 。 示 例如 





import os 
import fnmatch 
import gzip 
import bz2 
import re 


def gen_find(filepat, top): 


mre 


Find all filenames in a directory tree that match a shell wi 


for path, dirlist, filelist in os.walk(top): 
for name in fnmatch.filter(filelist, filepat): 
yield os.path.join(path, name) 


def gen_opener (filenames): 


mre 





Open a sequence of filenames one at a time producing a file 


The file is closed immediately when proceeding to the next i 


for filename in filenames: 

if filename.endswith('.gz'): 

f = gzip.open(filename, 'rt') 
elif filename.endswith('.bz2'): 

f = bz2.open(filename, 'rt') 
else: 

f = open(filename, 'rt') 
yield f 
f.close() 


def gen_concatenate(iterators): 


mre 


Chain a sequence of iterators together into a single sequenc 


for it in iterators: 
yield from it 


def gen_grep(pattern, lines): 


mre 


Look for a regex pattern in a sequence of lines 


pat = re.compile(pattern) 
for line in lines: 
if pat.search(line): 
yield line 





SUL TY DA fE PPL ICE R AH BITE 
数据 处 理 的 管道 。 例 如 ， 要 找 出 所 有 包含 关键 字 
python 的 日 志 行 ， 只 需要 这 么 做 : 


lognames = gen_find('access-log*', 'www') 
files = gen_opener(lognames) 

lines = gen_concatenate(files) 

pylines = gen_grep('(?i)python', lines) 
for 


line in 


pylines: 
print 


(line) 








如 果 稍 后 想 对 官 道 进行 扩展 ， 其 至 可 以 在 生成 
俐 表达 式 中 填充 数据 。 比 如 ， 下 面 这 个 版 本 可 以 找 
出 传送 的 学 节 数 并 统计 出 总 字 节 量 : 


lognames = gen_find('access-log*', 'www') 
files = gen_opener(lognames ) 

lines = gen_concatenate(files) 

pylines = gen_grep('(?i)python', lines) 
bytecolumn = (line.rsplit(None,1)[1] for 


line in 


pylines) 
bytes = (int(x) for 


('Total', sum(bytes) ) 





4.13.3 phir 


将 数据 以 管道 的 形式 进行 处 理 可 以 很 好 地 运用 
于 其 他 广泛 的 问题 ， 包 括 解 析 、 读 取 实 时 的 数据 
源 、 定 期 轮 询 等 。 


要 理解 这 些 代 码 ， 很 重要 的 一 点 是 领会 yield 语 
名 的 含义 。 在 这 里 yield 语 名 表现 为 数据 的 生产 者 ， 
而 for 循 环 表 现 为 数据 的 消费 者 。 当 生成 器 被 串联 起 











来 时 ， 在 迭代 中 每 个 yield 语 句 都 为 管道 中 下 个 阶段 
的 处 理 过 程 产生 出 数据 。 在 最 后 那个 例子 中 ， 
sum() 孙 数 实际 上 在 驱动 这 整个 程序 ， 每 一 次 部 从 
E Bae LEP EH i Bia o 


这 种 方法 的 一 个 优点 在 于 每 个 生成 器 函数 都 比 
较 短小 而 且 功 能 独立 。 正 因为 如 此 ， 编 写 和 维护 都 
很 容易 。 在 许多 情况 下 ， 由 于 它们 是 如 此 的 通用 ， 
因此 可 以 在 其 他 上 下 文中 得 到 重用 。 最 终 ， 将 这 些 
组 件 粘 合 在 一 起 的 代码 读 起 来 就 像 一 份 食谱 一 样 简 
单 ， 因 此 也 更 容易 理解 。 


这 种 方法 在 内 存 使 用 的 高 效 性 上 也 同样 值得 大 
深 。 如 果 目 录 中 有 着 海 量 的 文件 要 处 理 ， 上 述 展 示 
的 代码 仍然 可 以 正常 工作 。 实 际 上 ， 由 于 处 理 过 程 
的 欠 代 特性 ， 这 里 只 会 用 到 非常 少 的 内 存 。 


关于 gen_concatenate(O) 函 数 还 有 一 些 非常 微妙 
的 地 方 需要 说 明 。 这 个 函数 的 目的 是 将 输入 序列 连 
接 为 一 个 长 序列 行 。itertools.chain0) 函 数 可 以 实现 
类 似 的 功能 ， 但 是 这 需要 将 所 有 的 可 迭 代 对 象 指 定 
为 它 的 参数 才 行 。 在 这 个 特定 的 例子 中 ， 这 么 做 将 
涉及 一 行 这 样 的 代码 : lines = 
itertools.chain(*files), 1x2 #Xgen_opener()/E sas 
A TC ARES © FAT TE aR ER EFT A CE 
序列 ， 它 们 在 下 一 个 迭代 步骤 中 会 被 立刻 关闭 ， 


























此 这 里 不 能 用 chain0。 我 们 展示 的 解决 方案 避免 了 


这 个 问题 。 


此 外 ，gen_concatenate0O 函 数 中 也 出 现 了 实现 
委托 给 一 个 子 生成 器 的 yield from 语句。 语句 yield 
from it 简 单 地 使 gen_concatenate(O) 函 数 发 射出 所 有 由 
生成 器 it 产生 的 值 。 这 一 点 将 在 4.14 节 中 做 进一步 
的 摘 述 。 


最 后 但 同样 重要 的 是 ， 应 该 指出 宫 道 方法 并 不 
会 总 是 适用 于 每 一 个 数据 处 理 问题 。 有 时 候 我 们 需 
要 马上 处 理 所 有 的 数据 。 但 是 ， 就 算是 这 种 情况 ， 
Ra 

流程 。 


David Beazley 在 他 的 “针对 系统 程序 员 之 生成 
器 技巧 ”教程 报告 (http:/www.dabeaz.comy/ 
generators ) 中 已 经 对 这 些 技术 做 了 广泛 的 探讨 。 
可 以 参阅 他 的 教程 以 获得 更 多 的 示例 。 











4.14 jia FAEERE W AY A 
4.14.1 问题 


ERAT TR EA PP], AR E m PAE 
为 一 列 单独 的 值 。 


4.14.2 ”解决 方案 


这 个 问题 可 以 很 容易 地 通过 写 一 个 带 有 yield 
from 语 句 的 递归 生成 器 函数 来 解决 。 示 例如 下 : 


from collections import Iterable 


def flatten(items, ignore_types=(str, bytes)): 
for x in items: 
if isinstance(x, Iterable) and not isinstance(x, ignore_ 


yield from flatten(x) 
else: 
yield x 
items = [1, 2, [3, 4, [5, 6], 7], 8] 


# Produces 1234567 8 


for x in flatten(items): 
print(x) 





在 上 述 代码 中 ，isinstance(x, Iterable) 简 单 地 检 
BER ARTICARE VIER. WRIA, AA 
WH yield from 将 这 个 可 和 迭代 对 象 作 为 一 种 子 例 程 进 
行 递归 ， 将 它 所 有 的 值 都 产生 出 来 。 最 后 得 到 的 结 
果 束 是 一 个 没有 山 套 的 单 值 序列 。 


代码 中 额外 的 参数 ignore_types 和 对 not 
isinstance(x, ignore_types) 的 检查 是 为 了 避免 将 字符 
串 和 字 节 串 解释 为 可 友 代 对 象 ， 进 而 将 它们 展开 为 
单独 的 一 个 个 字符 。 这 使 得 磐 套 型 的 字符 串 列 表 能 
够 以 大 多 数 人 所 期 望 的 方式 工作 。 示 例如 下 : 














>>> items = ['Dave', 'Paula', ['Thomas', 'Lewis' ]] 
>>> for 


x in 


flatten(items): 


print 


(x) 


Dave 
Paula 
Thomas 
Lewis 
>>> 


Le 


4.14.3 ”讨论 





如 果 想 编写 生成 器 用 来 把 其 他 的 生成 右 当 做 子 
例 程 调用 ，yield from 是 个 不 错 的 快捷 方式 。 如 果 不 
这 么 用 ， 就 需要 编写 有 和 额外 for 循 环 的 代码 ， 比 如 这 
样 : 





def 


flatten(items, ignore_types=(str, bytes)): 
for 


isinstance(x, Iterable) and not 


isinstance(x, ignore_types): 
for 


flatten(x): 
yield 


else 


yield 





管 只 是 个 小 小 的 改变 ， 但 是 使 用 yield from 语 
更 好 ， RRA CaS MM 晰 。 


Js 
<b, 


句 感 











前 面 提 到 ， 对 字符 串 和 字 节 串 的 额外 检查 是 为 
了 避免 将 这 些 类 型 的 对 象 展 开 为 单独 的 字符 。 如 采 
还 有 其 他 类 型 是 不 想 要 展开 的 ， 可 以 为 ignore_types 
参数 提供 不 同 的 值 来 确定 。 


最 后 应 该 要 提 到 的 是 ，yield from 在 涉及 协 程 
(coroutine) 和 基于 生成 司 的 并 发 型 高 级 程序 中 有 
着 更 加 重要 的 作用 。 请 参见 12.12 节 中 的 男 一 个 示 
例 。 




















4.15 ”合并 多 个 有 序 序列 ， 再 对 整 
AN AR PE Pe EAT BAR 
4.15.1 问题 


我 们 有 一 组 有 序 序列 ， 想 对 它们 合并 在 一 起 之 
后 的 有 序 序列 进行 迭代 。 





4.15.2 ”解决 方案 


对 于 这 个 问题 ，heapq.merge0O 函 数 正 是 我 们 所 
需要 的 。 示 例如 下 : 


>>> import heapq 


1] 
>>> for c in heapq.merge(a, b): 
print(c) 


1 
2 
4 
5 
6 
7 
1 
1 


0 
1 





4.15.3 ”讨论 


heapq.merge 的 友 代 性 质 意 味 着 它 对 所 有 提供 的 
序列 都 不 会 做 一 次 性 谈 取 。 这 意味 看 可 以 利用 它 处 
理 非常 长 的 序列 ， 而 开销 却 非常 小 。 例 如 ， 下 面 这 
个 例子 告诉 我 们 如 何 合并 两 个 有 序 的 文件 : 


import heapd 


with open('sorted_file_1', 'rt') as file1, \ 
open('sorted_file_2') 'rt' as file2, \ 
open('merged_file', 'wt') as outf: 


for line in heapq.merge(file1, file2): 
outf.write(line) 








需要 重点 强调 的 是 ，heapq.merge() 要 求 所 有 的 
输入 序列 都 是 有 序 的 。 特 别 是 ， 它 不 会 首先 将 所 有 
的 数据 读 取 到 堆 中 ， 或 者 预先 做 任何 的 排序 操作 。 
它 也 不 会 对 输入 做 任何 验证 ， 以 检查 它们 是 否 满足 
有 序 的 要 求 。 相 反 ， 它 只 是 简单 地 检查 每 个 输入 序 
列 中 的 第 一 个 元 聚 ， 将 最 小 的 那个 发 送出 去 。 然 后 
再 从 之 前 选择 的 序列 中 读 取 一 个 新 的 元 了 素 ， 再 重复 
执行 这 个 步骤 ， 直 到 所 有 的 输入 序列 都 耗 尽 为 止 。 








4.16 HAR as N Rwhileti 
4.16.1 问题 

我 们 的 代码 采用 while 循 环 来 迭代 处 理 数据 ， 
为 这 其 中 涉及 调用 某 个 函数 或 有 某 种 不 常见 的 测试 
条 件 ， 而 这 些 东 西 没 法 归 类 为 常见 的 迭代 模式 。 
4.16.2 ”解决 方案 


在 涉及 1/O 处 理 的 程序 中 ， 编 瑟 这 样 的 代码 是 
很 常见 的 : 








CHUNKSIZE = 8192 


def 


reader(s): 
while 


True: 
data = s.recv(CHUNKSIZE) 
if 


data == b' 
‘break 


process_data(data) 


这 样 的 代码 常常 可 以 用 iter0 来 替换 ， 比 如 : 


def 


reader(s): 
for 


chunk in 


iter (lambda 


: S.recv(CHUNKSIZE), b''): 
process _data(data) 





如 果 对 这 样 的 代码 能 否 正常 工作 持 有 怀疑 态 
度 ， 可 以 用 一 个 有 关 文件 处 理 的 类 似 例子 试验 一 
F: 





>>> import sys 

>>> f = open('/etc/passwd') 

>>> for chunk in iter(lambda: f.read(10), ''): 
n = sys.stdout.write(chunk) 


nobody:*:-2:-2:Unprivileged User:/var/empty:/usr/bin/false 
root:*:0:0:System Administrator:/var/root:/bin/sh 
daemon:*:1:1:System Services:/var/root:/usr/bin/false 
_uucp:*:4:4:Unix to Unix Copy Protocol:/var/spool/uucp:/usr/sbin 





>>> 


4.16.3 ”讨论 


关于 内 建 函 数 iter()， 一 个 少 有 人 知 的 特性 是 它 
可 以 选择 性 接受 一 个 无 参 的 可 调用 对 象 以 及 一 个 哨 
R CER) 值 作 为 输入 。 当 以 这 种 方式 使 用 时 ， 
itera BE “Aa as, Ala ER aA AP ge RY 
可 调用 对 象 ， 直 到 它 返 回 哨兵 值 为 止 。 


这 种 特定 的 方式 对 于 需要 重复 调用 函数 的 情 
况 ， 比 如 这 些 涉及 WO 的 问题 ， 有 很 好 的 效果 。 比 
如 ， 如 果 想 从 socket 或 文件 中 按 块 读 取 数据 ， 通 营 
会 重复 调用 read(0) 或 者 recv()， 人 然后 紧 跟 着 检测 是 否 
到 达 文 件 结 尾 。 而 我 们 给 出 的 解决 方案 简单 地 将 这 
两 个 功能 合并 为 一 个 单独 的 iterO 调 用 。 解 决 方案 中 
对 lambda 的 使 用 是 为 了 创建 一 个 不 市 参数 的 可 调用 
7 但 是 还 是 可 以 对 recv0 或 read0 提 供 所 需要 的 





























[1] 即 ， 我 们 提供 的 那个 函数 起 一 个 筛子 的 作 
用 ， 满 足 条 件 的 都 会 丢弃 直到 有 元 素 不 满足 为 止 。 
一 译 者 注 








第 5 草 ”文件 和 LO 


任何 程序 都 需要 处 理 输入 和 输出 。 本 章 介 绍 了 

处 理 各 种 不 同类 型 文件 时 的 惯用 方法 ， 包 括 文本 和 

二 进 制 文件 的 处 理 、 文 件 编码 以 及 其 他 一 些 相关 的 
Ne 。 用 来 处 理 文 件 名 和 目录 相关 的 技术 也 有 涵 





51 ZS MARGE 
5.1.1 问题 
我 们 需要 对 文本 数据 进行 读 写 操作 ， 但 这 个 过 


程 有 可 能 针对 不 同 的 文本 编码 进行 ， 比 如 ASCII、 
UTF-8 或 UTF-16 编 码 。 





5.1.2 解决 方案 


可 以 使 用 openO0 函 数 配 合 rt 模式 来 读 取 文本 文件 
的 内 容 。 示 例如 下 : 





# Read the entire file as a single string 


with 


open('somefile.txt', 'rt') as 


fF: 
data = f.read() 
# Iterate over the lines of the file 


with 


open('somefile.txt', 'rt') as 


# process line 





类 似 地 ， 要 对 文本 文件 执行 写 入 操作 ， 可 以 使 
Hopen) PA Sci wt IRTE A o Un RIE EENE RI SCF 
OFE, MARSA mE IRMA. WHI 





如 下 : 





# Write chunks of text data 


with 


open('somefile.txt', 'wt') as 


f 
f.write(text1) 


f.write(text2) 
# Redirected print statement 
with 
open('somefile.txt', 'wt') as 


f: 
print 


(line1, file=f) 
print 


(line2, file=f) 





如 果 要 在 已 存在 文件 的 结尾 处 追加 内 容 ， 可 以 
使 用 open0) 函 数 的 at 模式 。 


默认 情况 下 ， 文 件 的 读 取 和 写 入 采用 的 都 是 系 





统 默 认 的 文本 编码 方式 ， 这 可 以 通过 
sys.getdefaultencoding() 来 得 询 。 在 大 多 数 机 器 上 ， 
这 项 设 定 都 被 设置 为 utf-8。 如 果 我 们 知道 正在 读 取 
或 写 入 的 文本 采用 的 是 另外 一 种 编 但 方式 ， 那 么 可 








以 为 open() 函 数据 供 一 个 可 选 的 编码 参数 。 示 例如 
F: 


with 


open('somefile.txt', 'rt', encoding='latin-1') as 


fe 





Python 可 以 识别 出 几 百 种 可 能 的 文本 编码 。 但 
是 ， 一 些 稍 见 的 编码 方式 不 外 乎 是 ascii、latin-1、 
utf-8 以 及 utf-16。 如 果 要 同 Web 应 用 程序 打交道 ， 采 
用 utf-8 编 码 通 常 是 比较 保险 的 。ascii 编 码 对 应 于 范 
围 U+0000 到 U+007F 中 的 7 比特 字符 。latin-1 编 码 则 
是 字 节 0 一 255 对 Unicode 字 符 U+0000 到 U+OOFF 的 直 
接 映 射 。 关 于 latin-1 编 码 ， 值 得 注意 的 一 点 是 ， 当 
读 取 到 未 知 编码 的 文本 时 是 不 会 产生 解码 错误 的 。 
以 latin-1 方 式 读 取 文件 可 能 不 会 产生 完全 正确 的 解 
人 码 文 本 ,但 是 要 从 中 提取 出 有 用 的 数据 仍然 是 足够 
了 。 此 外 ， 如 果 稍 后 将 数据 重新 写 入 到 文件 中 ， 那 
么 原始 的 输入 数据 将 得 到 保留 。 




















5.1.3 讨论 


一 般 来 说 ， 读 写 文 本 文件 都 是 非常 简单 直接 
的 。 但 是 ， 这 里 还 是 有 几 个 微妙 的 细节 需要 引起 注 
意 。 首 先 ， 我 们 在 示例 中 采用 了 with 语句 ， 这 会 为 
使 用 的 文件 创建 一 个 上 下 文 环境 (context) 。 当 程 
序 的 控制 流程 离开 with 语句 块 后 ， 文 件 将 自动 关 
闭 。 我 们 并 不 是 一 定 要 使 用 with 语 句 ， 但 是 如 果 不 
用 的 话 请 确保 要 记得 手动 关闭 文件 : 


f = open('somefile.txt', 'rt') 
data = f.read() 
f.close() 





另 一 个 细微 的 问题 是 关于 换行 符 的 识别 ， 在 
UNIX 和 Windows 上 它们 是 不 同 的 〈 即 ，\n 和 Nm 之 
F) 。 默 认 情况 下 ，Python 工 作 在 “通用 型 换行 
从 ”模式 下 。 在 该 模式 中 ， 所 有 常见 的 换行 格式 都 
能 识别 出 来 。 在 读 取 时 会 将 换行 符 转 换 成 一 个 单独 
的 mn 字符 。 同 样 地 ， 在 输出 时 换行 符 m 会 被 转换 为 
当前 系统 默认 的 换行 符 。 如 果 你 不 想 要 这 种 “ 翻 
译 ” 行 为 ， 可 以 给 open0 函 数据 供 一 个 newline=' 的 
参数 ， 示 例如 下 : 








# Read with disabled newline translation 


with 


open('somefile.txt', 'rt', newline='') as 


f: 





为 了 说 明 其 中 的 区 别 ， 我 们 会 在 下 面 的 例子 中 
看 到 ， 如 果 在 UNIX 机 器 上 读 取 由 Windows 系 统 编 
码 的 包含 有 原始 数据 hello worldINNn 的 文本 时 ， 会 
出 现 什 么 结果 : 


>>> # Newline translation enabled (the default) 


>>> f = open('hello.txt', 'rt') 
>>> f.read() 

"hello world! \n' 

>>> # Newline translation disabled 


>>> g = open('hello.txt', 'rt', newline='') 
>>> g.read() 

"hello world!\r\n' 

>>> 








最 后 一 个 问题 是 关于 文本 文件 中 可 能 出 现 的 编 
码 错误 。 当 我 们 读 取 或 写 入 文本 文件 时 ， 可 能 会 遇 
到 编码 或 解码 错误 。 例 如 : 


>>> f = open('sample.txt', 'rt', encoding='ascii' ) 
>>> f.read() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/usr/local/lib/python3.3/encodings/ascii.py", line 26, i 


return 


codecs.ascii_decode(input, self.errors)[0] 

UnicodeDecodeError: 'ascii' codec can't decode byte Oxc3 in posi 
12: ordinal not in range(128) 

>>> 








如 果 遇 到 这 个 错误 ， 这 通常 表示 没有 以 正确 的 
编码 方式 来 读 取 文 件 。 应 该 仔细 阅读 要 读 取 的 文本 
的 相关 规范 ， 并 检查 自己 的 操作 是 否 正 确 ( 例 如 不 
要 用 latin-1 编 码 方 式 读 取 ， 换 成 utf-8 或 者 任何 所 需 
的 编码 方式 ) 。 如 果 还 是 有 可 能 出 现 编码 错误 ， 则 
可 以 为 open0) 函 数 提供 一 个 可 选 的 errors 参 数 来 处 理 
错误 。 下 面 是 几 个 常见 的 错误 处 理 方案 的 例子 : 











>>> # Replace bad chars with Unicode U+fffd replacement char 


>>> f = open('sample.txt', 'rt', encoding='ascii', errors='repla 
>>> f.read() 

"Spicy Jalape?o! ' 

>>> # Ignore bad chars entirely 


>>> g = open('sample.txt', 'rt', encoding='ascii', errors='ignor 
>>> g.read() 
"Spicy Jalapeo!' 





QR Fy Fy TE FE FF open() A BL HV encoding Filerrors 
参数 ， 并 为 此 做 了 大 量 的 技巧 性 操作 Chacks) , Alf 
就 适得其反 了 ， 因 为 生活 本 不 应 该 如 此 艰难 。 关 于 
文本 ， 第 一 条 守则 就 是 只 需要 确保 总 是 采用 正确 的 
eye SUH Be 是 问 时 ， 请 使 用 默 
认 的 编码 设 定 〈 通 常 是 utf-8) 。 











5.2 ”将 输出 重 定 癌 到 文件 中 


5.2.1 问题 








我 们 想 将 printO 函 数 的 输出 重 定 同 到 一 个 文件 
中 。 


5.2.2 ”解决 方案 


对 于 这 个 问题 ， 只 需要 像 这 样 为 print() 疯 数 加 
上 file 关 键 字 参数 即 可 : 





with 


open('somefile.txt', 'rt') as 


f: 
print 


('Hello World!', file=f) 





5.2.3 讨论 





对 于 这 个 主题 确实 没 多 少 东 西 可 说 。 只 征 要 确 
保 文件 是 以 文本 模式 打开 的 。 如 果 文 件 是 以 二 进 制 
模式 打开 的 话 ， 打 印 束 会 失败 。 





5.3 ”以 不 同 的 分 隔 符 或 行 结尾 符 完 
成 打印 


5.3.1 问题 


我 们 想 通 过 print0 函 数 输出 数据 ， 但 是 同时 也 
布 户 修改 分 阳 符 或 者 行 结尾 符 。 


5.3.2 ”解雇 方案 


可 以 在 print() 函 数 中 使 用 sep 和 end 关 键 字 参数 
来 根据 需要 修改 输出 。 示 例如 下 : 





>>> print 


('ACME', 50, 91.5) 
ACME 50 91.5 
>>> print 


('ACME', 50, 91.5, sep=',') 
ACME, 50,91.5 
>>> print 


('ACME', 50, 91.5, sep=',', end='!!\n 


') 
ACME, 50,91.5!! 


>>> 


使 用 end 参 数 也 是 在 输出 中 茶 止 打印 出 换行 符 
的 方式 。 示 例如 下 : 





>>> for 


>> for 


01234 >>> 


5.3.3 ”讨论 


除了 空格 之 外 ， 当 还 需要 用 其 他 字符 来 分 隔 文 
本 时 ， 通 常 在 print0) 函 数 中 通过 sep 关 键 字 参数 指定 
一 个 不 同 的 分 隔 符 就 是 最 简单 的 方法 了 。 有 了 时候 我 
们 会 看 到 有 的 程序 员 会 利用 str.join(0) 来 实现 同样 的 
效果 。 例 如 : 








>>> print 


(', '.join('ACME', '50','91.5')) 
ACME, 50,91.5 
>>> 








str.join0 的 问题 就 在 于 它 只 能 处 理 字 符 串 。 这 
意味 着 我 们 常常 得 做 些 转 换 才 能 让 其 正常 工作 。 比 
如 说 : 








>>> row = ('ACME', 50, 91.5) 
>>> print 


(', '.join(row) ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: sequence item 1: expected str instance, int found 


>>> print 


(', '.join(str(x) for 


row) ) 
ACME, 50,91.5 
>>> 





ESL A DIKAR Sap, R E H print) K Boat 
可 以 办 到 了 : 


>>> print 


(*row, sep=', ') 


ACME, 50,91.5 
>>> 





5.4 ” 斌 写 二 进 制 数 据 
5.4.1 问题 


BM ie Bes HE Ba, ECM. EA 
件 等 。 


5.4.2 ”解决 方案 


使 用 open0) 函 数 的 tb 或 者 wb 模式 束 可 以 实现 对 
二 进 制 数 据 的 读 或 瑟 。 示 例如 下 : 





# Read the entire file as a single byte string 


with 


open('somefile.bin', 'rb') as 


f: 
data = f.read() 
# Write binary data to a file 


with 


open('somefile.bin', 'wb') as 


fa 
f.write(b'Hello World' ) 





当 读 取 二 进 制 数据 时 ， 很 重要 的 一 点 是 所 有 的 








数据 将 以 字 节 串 (byte string) 的 形式 返回 ， 而 不 是 

文本 字符 串 。 同 样 地 ， 当 写 入 二 进 制 数 据 时 ， 数 据 

必须 是 以 对 象 的 形式 来 提供 ， 而 且 该 对 象 可 以 将 数 

cae rere ( 即 ， 字 节 串 、bytearray 对 
E 





5.4.3 讨论 


当 读 取 二 进 制 数 据 时 ， 由 于 字 节 串 和 文本 字符 
串 之 间 存 在 微妙 的 语义 差异 ， 这 可 能 会 造成 一 些 洪 
在 的 问题 。 特 别 要 注意 的 是 ， 在 做 索引 和 迭代 操作 
时 ， 字 节 串 会 返回 代表 该 字 节 的 整数 值 而 不 是 字符 
Po ANION PF: 














>>> # Text string 


>>> t = 'Hello World' 
>>> t[0] 
hy 


>>> for 


print 


(c) 


orero ZL 


>>> # Byte string 


>>> b = b'Hello World' 
>>> b[0] 


>>> for 


print 


(c) 








如 朱 需 要 在 二 进 制 文件 中 读 取 或 写 入 文本 内 
容 ， 请 硝 你 要 进行 编码 或 解码 操作 。 示 例如 下 : 


with 


open('somefile.bin', 'rb') as 


data f.read(16) 
text data.decode('utf-8') 


with 


open('somefile.bin', 'wb') as 


text = 'Hello World' 
f.write(text.encode('utf-8')) 





天 于 二 进 制 OO， 一 个 鲜 为 人 知 的 行为 是 ， 像 
数组 和 C 结 构 体 这 样 的 对 象 可 以 直接 用 来 进行 写 操 
作 ， 而 不 必 先 将 其 转换 为 byte 对 象 。 示 例如 下 : 





import array 


nums = array.array('i', [1, 2, 3, 4]) 
with 


open('data.bin','wb') as 


f.write(nums) 








这 种 行为 可 适用 于 任何 实现 了 所谓 的 “缓冲 区 
接口 (buffer interface) ”的 对 象 。 该 接口 直接 将 对 
象 底层 的 内 存 绥 冲 区 暴露 给 可 以 在 其 上 进行 的 操 
作 。 写 入 二 进 制 数据 束 是 这 样 一 种 操作 。 

有 许多 对 象 还 支持 直接 将 二 进 制 数据 读 入 到 它 


们 底层 的 内 存 中 ， 只 要 使 用 文件 对 象 的 readinto() 方 
法 就 可 以 了 。 示 例如 下 : 


>>> import array 














>>> a = array.array('i', [0, ©, ©, ©, ©, O, ©, O]) 
>>> with 


open('data.bin', 'rb') as 
f: 

f.readinto(a) 

16 


>>> a 
array('i', [1, 2, 3, 4, ©, 9, ©, 0]) 
>>> 








但 是 ， 使 用 这 项 技术 时 需要 特别 小 心 ， 因 为 这 





第 第 是 与 平台 特性 相关 的 ， 而 且 可 能 依赖 于 字 
Cword) 的 大 小 和 字 节 序 ( 即 大 端 和 小 端 ) 等 属 
性 。 请 参见 5.9 节 中 的 另 一 个 例子 ， 在 该 例 中 我 们 将 
二 进 制 数据 读 入 到 一 个 可 变 缓冲 区 (mutable 

buffer) 中 。 


55 对 已 不 存在 的 文件 执行 号 入 操 
VE 


5.5.1 问题 


我 们 想 将 数据 写 入 到 一 个 文件 中 ， 但 只 在 该 文 
件 已 不 在 文件 系统 中 时 才 这 么 做 。 


5.5.2 ”解决 方案 


这 个 问题 可 以 通过 使 用 open0 函 数 中 鲜 为 人 知 
的 x 模式 蔡 代 常见 的 w 模 式 来 解决 。 示 例如 下 : 





>>> with 


open('somefile', 'wt') as 
f: 
f.write('Hello\n 


p. 


>>> With 

open('somefile', 'xt') as 

f: 

f.write('Hello\n 

=) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


FileExistsError: [Errno 17] File exists: 'somefile' 
>>> 





如 果 文 件 是 二 进 制 模式 的 ， 那 么 用 xb 模式 代 答 
xt 即 可 。 


5.5.3 “讨论 

本 节 中 的 示例 以 一 种 非常 优雅 的 方式 解决 了 一 
个 常会 在 写 文 件 时 出 现 的 问题 ( 即 ， 意 外 地 和 窗 产 了 
某 个 已 存在 的 文件 ) 。 男 一 种 解决 方案 是 首先 像 这 
样 检 查 文 件 是 否 已 存在 : 


>>> import os 

















>>> if not 


os.path.exists('somefile'): 
with 


open('somefile', 'wt') as 


f: 


f.write('Hello\n 


') 


else 
print 


('File already exists!') 


File already exists! 
>>> 














很 明显 ， 使 用 x 模 式 更 加 简单 下 接 。 需 要 注意 





的 是 ，x 模 式 是 Python 3 中 对 open0 函 数 的 扩展 。 在 
早期 的 Python 版 本 或 者 在 Python 的 实现 中 用 到 的 底 





层 C 函 数 库 里 都 不 存在 这 样 的 模式 。 


5.6 ”在 字符 串 上 执行 IO 操作 


5.6.1 问题 





我 们 想 将 一 段 文 本 或 二 进 制 字 符 串 写 入 类 似 于 
文件 的 对 象 上 。 


5.6.2 ”解决 方案 
使 用 io.StringIOO 和 io.BytesI00) 类 来 创建 类 似 于 


文件 的 对 象 ， 这 些 对 象 可 操作 字符 串 数据 。 示 例如 
P: 











>>> s = 1i0.StringI0() 
>>> s.write('Hello World\n 


') 
12 
>>> print 


('This is a test', file=s) 
15 
>>> # Get all of the data written so far 


>>> s.getvalue() 
"Hello World\nThis is a test\n' 
>>> 


>>> # Wrap a file interface around an existing string 


>>> s = 10.StringI0('Hello\n 


World\n 


>>> s.read(4) 
"Hell' 

>>> s.read() 
‘o\nWorld\n' 


>>> 





io.StringIO 类 只 能 用 于 对 文本 的 处 理 。 如 果 要 
操作 二 进 制 数据 ， 请 使 用 io.BytesIO 。 示 例如 下 : 


>>> s = io.BytesI0() 
>>> s.write(b'binary data') 
>>> s.getvalue() 


b'binary data' 
>>> 





5.6.3 ”讨论 


当 出 于 某 种 原因 需要 模拟 出 一 个 普通 文件 时 ， 
这 种 情况 下 StringIO 和 BytesIO 类 是 最 为 适用 的 。 例 
如 ， 在 单元 测试 中 ， 可 能 会 使 用 StringIO 来 创建 一 
个 文件 型 的 对 象 ， 对 象 中 包含 了 测试 用 的 数据 。 之 








后 我 们 可 将 这 个 对 象 友 送 给 一 个 可 以 接受 普通 文件 
的 函数 。 


请 注意 ，StringIO 和 BytesIO 实 例 是 没有 真正 的 
文件 描述 符 来 对 应 的 。 因 此 ， 它 们 没 法 工作 在 需要 
一 个 真正 的 系统 级 文件 例如 文件 、 管 道 或 套 接 字 的 
代码 环境 中 。 














5.7 读 写 压缩 的 数据 文件 


5.7.1 问题 





我 们 需要 访 写 以 gzip 或 bz2 格 式 压 缩 过 的 文件 中 
的 数据 。 


5.7.2 ”解决 方案 


gzip 和 和 bz2 模 块 使 得 同 这 类 压缩 型 文件 打交道 变 
得 非常 简单 。 这 两 个 模块 都 提供 了 open0 的 其 他 实 
现 ， 可 用 于 处 理 压 缩 文 件 。 例 如 ， 要 将 压缩 文 件 以 
文本 形式 读 取 ， 可 以 这 样 处 理 : 











# gzip compression 


import gzip 


with 


gzip.open('somefile.gz', 'rt') as 


f: 
text = f.read() 
# bz2 compression 


import bz2 


with 


bz2.open('somefile.bz2', 'rt') as 


text = f.read() 








与 之 相似 ， 要 与 入 压缩 数据 ， 可 以 这 样 处 理 ; 





# gzip compression 
import gzip 


with 


gzip.open('somefile.gz', 'wt') as f: 
f.write(text) 


# bz2 compression 
import bz2 


with 


bz2.open('somefile.bz2', 'wt') as f: 
f.write(text) 


| 


如 示例 代码 所 示 ， 以 上 所 有 的 IO 操作 都 会 采 
用 文本 形式 并 执行 Unicode 编 码 /解码 操作 。 如 果 想 
处 理 二 进 制 数据 ， 请 使 用 mb 或 wb 模式 。 





5.7.3 pic 


大 部 分 情况 下 读 写 压缩 数据 都 是 简单 而 直接 
的 。 但 是 请 注意 ， 选 择 正 确 的 文件 模式 是 至 关 重 要 
的 。 如 果 没 有 指定 模式 ， 那 么 默认 的 模式 是 二 进 
制 ， 这 会 使 得 期 望 接受 文本 的 程序 衣 涡 。 
gzip.open() 和 bz2.open() 所 接受 的 参数 与 内 建 的 
open) K žr—ł¥, tH x ffencoding, errors, newline 
等 关键 字 参 数 。 


当 写 入 压缩 数据 时 ， 压 缩 级 别 可 以 通过 
compresslevel Kit FE BORTAE, KEATON. AN 
例如 下 : 

















with 


gzip.open('somefile.gz', 'wt', compresslevel=5) as 


f: 
f.write(text) 


| 


默认 级 别 是 9， 人 代表 春 最 高 的 压缩 等 级 。 低 等 
级 的 压缩 可 市 来 更 好 的 性 能 表现 ， 但 压缩 比 惑 没有 
那么 天。 





最 后 ，gzip.open0 和 bz2.open0 有 一 个 较 少 提 到 
的 特性 ， 那 束 是 它们 能 够 对 已 经 以 二 进 制 模式 打开 
的 文件 进行 车 加 操作 。 示 例如 下 : 


import gzip 
f = open('somefile.gz', 'rb') 
with 


gzip.open(f, 'rt') as 


text = g.read() 





这 种 行为 使 得 gzip 和 bz2 模 块 可 以 同 各 种 类 型 的 
e 象 比如 套 接 字 、 管 道 和 内 存 文件 一 起 工 








5.8 对 固定 六 小 的 记录 进行 迭代 


5.8.1 问题 








与 其 按 行 来 达 代 文件 ， 我 们 想 对 一 系列 国定 大 
小 的 记录 或 数据 块 进行 进 代 。 


5.8.2 ”解决 方案 


可 以 利用 iterO 和 functools.partial() 来 完成 这 个 巧 
妙 的 搁 巧 ， 示 例如 下 : 





from functools import 


partial 
RECORD_SIZE = 32 
with 


open('somefile.data', 'rb') as 


f: 
records = iter(partial(f.read, RECORD_SIZE), b'') 
for 


r in 


records: 





示例 中 的 records 对 象 是 可 运 代 的 ， 它 会 产生 出 
固定 大 小 的 数据 块 直到 到 达 文 件 结尾 。 但 是 请 注 
意 ， 如 果 文 件 大 小 不 是 记录 大 小 的 整数 倍 的 话 ， 那 
么 最 后 产生 出 的 那个 数据 块 可 能 比 所 期 望 的 字 节 数 


BD 





Hik 


5.8.3 ”讨论 


关于 iter() 函 数 ， 一 个 少 有 人 知 的 特性 是 ， 如 果 
传递 一 个 可 调用 对 象 及 一 个 哨兵 值 给 它 ， 那 么 它 可 
DA Gil) EL “PIE ao Fr BUN IS Cas ze BAS Dd FA 
户 提 供 的 可 迭代 对 象 ， 直 到 返回 的 值 为 哨兵 值 为 
止 ， 此 时 运 代 过 程 停止 。 


在 我 们 给 出 的 解决 方案 中 ，functools.partial 用 
来 创建 可 调用 对 象 ， 每 次 调用 它 时 都 从 文件 中 读 取 
固定 的 字 节 数 。b' ' 在 这 里 用 作 哨 兵 值 ， 当 读 取 到 文 
件 结尾 时 就 会 返回 这 个 值 ， 此 时 迭代 过 程 结束 。 


最 后 但 也 很 重要 的 是 ， 解 决 方案 中 展示 的 文件 
是 以 二 进 制 模式 打开 的 。 对 于 读 取 固定 大 小 的 记 
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5.9 ”将 二 进 制 数据 读 取 到 可 变 缓冲 
区 中 


5.9.1 问题 





我 们 想 将 二 进 制 数据 直接 读 取 到 一 个 可 变 缓冲 
区 中 ， 中 间 不 经 过 任何 拷贝 环节 。 也 许 我 们 想 原 地 
修改 数据 再 将 它 写 回 到 文件 中 去 。 





5.9.2 ”解决 方案 


要 将 数据 读 取 到 可 变数 组 中 ， 使 用 文件 对 象 的 
readinto() 方 法 即 可 。 示 例如 下 : 





import os.path 


def 


read_into_buffer(filename) : 
buf = bytearray(os.path.getsize(filename) ) 
with 


open(filename, 'rb') as 


f: 


f.readinto(buf ) 
return 


buf 





下 面 来 演示 这 个 函数 的 用 法 : 


>>> # Write a sample file 





>>> with 


open('sample.bin', 'wb') as 


f.write(b'Hello World' ) 


>>> buf = read_into_buffer('sample.bin' ) 
>>> buf 

bytearray(b'Hello World' ) 

>>> buf[0:5] = b'Hallo' 

>>> buf 

bytearray(b'Hallo World' ) 

>>> with 


open('newsample.bin', 'wb') as 


f.write(buf) 


11 
>>> 





5.9.3 讨论 


文件 对 象 的 readinto() 方 法 可 用 来 将 数据 填充 到 
任何 预 分 配 好 的 数组 中 ， 这 包括 array 模 块 或 者 
numpy 这 样 的 库 所 创建 的 数组 。 与 普通 的 read0) 方 法 
不 同 的 是 ，readinto0) 是 为 已 存在 的 绥 冲 区 填充 内 
容 ， 而 不 是 分 配 新 的 对 象 然后 再 将 它们 返回 。 
此 ， 可 以 用 readinto0) 来 避免 产生 额外 的 内 存 分 配 动 
作 。 例 如 ， 如 果 正 在 读 取 一 个 由 相同 大 小 的 记录 所 
组 成 的 二 进 制 文件 ， 可 以 像 这 样 编号 代码 : 











record size = 32 # Size of each record (adjust value) 


buf = bytearray(record_size) 
with 


open('somefile', 'rb') as 


f: 


while 


True: 
n = f.readinto(buf ) 
if 


n < record_size: 
break 


# Use the contents of buf 








这 里 用 到 的 为 一 个 有 趣 的 特性 应 该 就 是 内 存 映 





像 (memoryview) 了 ， 它 使 得 我 们 可 以 对 已 存在 的 
绥 冲 区 做 切片 处 理 ， 但 是 中 间 不 涉及 任何 找 贝 操 
作 ， 我 们 甚至 还 可 以 修改 它 的 内 容 。 示 例如 下 : 








>>> buf 

bytearray(b'Hello World' ) 
>>> mi = memoryview(buf ) 
>>> m2 = mi[-5:] 

>>> m2 


<memory at 0x100681390> 
>>> m2[:] = b'WORLD' 

>>> buf 
bytearray(b'Hello WORLD' ) 
>>> 


pO 


使 用 freadinto0 需 要 注意 的 一 点 是 ， 必 须 总 是 
确保 要 检查 它 的 返回 值 ， 即 实际 读 取 的 字 节 数 。 


如 打字 市 数 小 于 所 提供 的 缓冲 区 大 小 ， 这 可 能 
表示 数据 被 截断 或 仁 到 了 破坏 例如， 如 果 期 望 读 
取 到 一 个 准确 的 字 节 数 时 ) 。 


最 后 ， 可 以 在 各 种 库 模块 找到 那些 市 
有 “into” 的 图 数 〈 例 如 recv_into0、pack_into0) 
等 ) 。Python 中 有 许多 模块 都 已 经 文 持 直 接 1/O 访 问 
了 ， 可 用 来 填充 或 修改 数组 和 缓冲 区 中 的 内 容 。 


请 参见 6.12 节 中 那个 解释 二 进 制 结构 体 和 
memoryview 用 法 的 示例 ， 那 个 例子 明显 要 更 加 蜗 级 


= 























5.10 ”对 二 进 制 文件 做 内 存 映 射 
5.10.1 问题 

我 们 想 通 过 内 存 映射 的 方式 将 一 个 二 进 制 文件 
加 载 到 可 变 的 字 节 数组 中 ， 这 样 可 以 随机 访问 其 内 
容 ， 或 者 是 实现 台地 修改 。 
5.10.2 解决 方案 

可 以 使 用 mmap 模 块 实现 对 文件 的 内 存 映 射 操 


作 。 下 面 给 出 一 个 实用 函数 ， 以 可 移植 的 方式 演示 
如 何 打 开 一 个 文件 并 对 它 进行 内 存 映 里 操作 : 











import os 


import mmap 


def 


memory_map(filename, access=mmap .ACCESS WRITE): 
size = os.path.getsize(filename) 
fd = os.open(filename, os.0O_RDWR) 
return 


mmap.mmap(fd, size, access=access) 


要 使 用 这 个 函数 ， 需 要 准备 一 个 已 经 创建 好 的 
文件 并 为 之 填充 一 些 数 据 。 下 面 的 例子 告诉 我 们 如 
何 创 建 一 个 初始 文件 ， 然 后 将 其 扩展 为 所 需要 的 大 
小 : 


>>> size = 1000000 
>>> with 


open('data', 'wb') as 


f: 


f.seek(size-1) 


f.write(b'\x00 





FAH memory_map) RRA F A RA TF 


映射 操作 的 例子 : 


>>> m = memory_map('data' ) 

>>> len(m) 

1000000 

>>> m[0:10] 
b'\x00\xO00\xO0\xOO\xXOO\xX00\xXO00\xO0\xO0\x00' 
>>> m[0] 

0 

>>> # Reassign a slice 


>>> m[0:11] = b'Hello World' 
>>> m.close() 
>>> # Verify that changes were made 


>>> with 


open('data', ‘'rb') as 


print 


(f.read(11) ) 


b'Hello World' 
>>> 





由 mmap0O 返 回 的 mmap 对 象 也 可 以 当做 上 下 文 


党 理 器 使 用 ， 在 这 种 情况 下 ， 展 层 的 文件 会 上 自动 关 
闭 。 示 例如 下 : 


>>> with 


memory_map('data') as 


(m[0:10]) 


1000000 
b'Hello World' 
>>> m.closed 
True 

>>> 





默认 情况 下 ，memory_mapO0 函 数 打开 的 文件 既 
可 以 读 也 可 以 写 。 对 数据 的 任何 修改 都 会 拷贝 回 原 
始 的 文件 中 。 如 果 需 要 只 读 访 问 ， 可 以 为 access 参 
数 提供 mmap.ACCESS_READ 值 。 示 例如 下 : 


m = memory_map(filename, mmap.ACCESS_READ) 





——————ee 


如 果 只 想 在 本 地 修改 数据 ， 并 不 想 将 这 些 修改 
写 回 到 原始 文件 中 ， 可 以 使 用 
mmap.ACCESS_COPY 参 数 : 








m = memory_map(filename, mmap.ACCESS_COPY) 





5.10.3 Wir 


通过 mmap 将 文件 映射 到 内 存 中 后 ， 我 们 能 够 
以 高 效 和 优雅 的 方式 对 文件 的 内 容 进 行 随机 访问 。 
比方 说 ， 与 其 打开 文件 后 通过 组 合 各 种 seek()、 
read0 和 writeO 调 用 来 访问 ， 不 如 简单 地 将 文件 映射 
到 内 存 ， 然 后 通过 切记 操作 来 访问 数据 。 


人 通常， 由 mmap() 雄 露出 的 内 存 看 起 来 束 像 一 个 
bytearray 对 象 。 但 是 ， 利 用 memoryview 能 够 以 不 同 
的 方式 来 解读 数据 。 比 如 : 











>>> m = memory_map('data' ) 
>>> # Memoryview of unsigned integers 


>>> v = memoryview(m).cast('I') 





应 该 强调 的 是 ， 对 某 个 文件 进行 内 存 映 射 并 不 
会 导致 将 整个 文件 读 到 内 存 中 。 也 就 是 次 ， 文 件 并 
不 会 找 贝 到 东 种 内 存 缓冲 区 或 数组 上 。 相 反 ， 操 作 





系统 只 是 为 文件 内 容 保留 一 段 虚 拟 内 存 而 已 。 当 访 
问 文件 的 不 同 区 域 时 ， 文 件 的 这 些 区 域 将 被 读 取 并 
按照 需要 映射 到 内 存 区 域 中 。 但 是 ， 文 件 中 从 未 访 
问 过 的 部 分 会 简单 地 留 在 磁盘 上 。 这 一 切 者 是 以 透 
明 的 方式 在 幕后 完成 的 。 


如 果 有 多 个 Python 解释 器 对 同一 个 文件 做 了 内 
存 映 射 ， 得 到 的 mmap 对 象 可 用 来 在 解释 堪 之 间 交 
换 数 据 。 也 束 是 说 ， 所 有 的 解释 器 可 以 同时 读 / 写 数 
据 ， 在 一 个 解释 器 中 对 数据 做 出 的 修改 会 目 动 反映 
到 其 他 的 解释 器 上 。 很 明显 ， 这 里 需要 一 些 额外 的 
步骤 来 处 理 同 步 问 题 ， 但 是 有 时 候 可 用 这 种 方法 作 
为 通过 管道 或 socket 传 输 数 据 的 蔡 代 方式 。 











本 市 中 的 示例 已 经 尽量 以 通用 的 形式 实现 ， 能 
够 在 UNIX 和 Windows 上 都 适用 。 请 注意 ， 对 于 
mmapO 的 使 用 ， 不 同 的 平台 上 会 存在 一 些 差 异 。 此 
外 ， 还 有 选项 可 用 来 创建 匿名 的 内 存 映 射 区 域 。 如 
果 对 此 感 兴 趣 ， 请 确 你 仔细 阅读 有 关 这 个 主题 的 
Python 文档 
(http:/docs.python.org/3/library/mmap.html ) 。 











5.11 处 理 路 径 名 
5.11.1 问题 


我 们 需要 处 理 路 径 名 以 找 出 基文 件 名 、 目 录 
名 、 绝 对 路 径 等 相关 的 信息 。 








5.11.2 解决 方案 


要 操纵 路 径 名 ， 可 以 使 用 os.path 模 块 中 的 函 
数 。 下 面 是 一 个 交互 式 的 例子 ， 用 来 说 明 其 中 一 些 
核心 的 功能 : 





>>> import os 


>>> path = '/Users/beazley/Data/data.csv' 


>>> # Get the last component of the path 


>>> os.path.basename(path) 
‘data.csv' 
>>> # Get the directory name 


>>> os.path.dirname(path) 
'/Users/beazley/Data' 


>>> # Join path components together 


>>> os.path.join('tmp', ‘'data', os.path.basename(path) ) 
'tmp/data/data.csv' 


>>> # Expand the user's home directory 


>>> path = '~/Data/data.csv' 
>>> os.path.expanduser (path) 
'/Users/beazley/Data/data.csv' 


>>> # Split the file extension 


>>> os.path.splitext(path) 
('~/Data/data', '.csv') 
>>> 





5.11.3 讨论 


对 于 任何 需要 处 理 文件 名 的 问题 ， 都 应 该 使 用 
os.path 模 块 而 不 是 通过 使 用 标准 的 字符 串 操 作 来 目 
己 实现 这 部 分 功能 。 部 分 原因 是 为 了 考虑 可 移植 
性 。os.path 模 块 知 道 UNIX 和 Windows 系 统 之 间 的 一 
些 差 异 ， 能 够 可 靠 地 处 理 类 似 Dataydata.csv 和 
Data\data.csv 这 样 的 文件 名 。 其 次 ， 我 们 真 的 不 应 
该 化 时 间 去 重 造 轮子 。 通 常 最 好 古 直 接 使 用 那些 已 
经 提供 了 的 功能 。 











应 该 值得 一 提 的 是 ，os.path 模 块 中 还 有 许多 功 
能 没有 在 本 节 中 展示 出 来 。 可 以 参阅 文档 以 获得 更 
多 同文 件 测试 、 符 号 链接 等 功能 相关 的 函数 。 











5.12 检测 文件 是 否 存 在 


5.12.1 问题 











我 们 需要 检测 某 个 文件 或 目录 是 否 存在 。 
5.12.2 解雇 方案 


可 以 通过 os.path 模 块 来 检测 某 个 文件 或 目录 是 
否 存在 。 示 例如 下 : 





>>> import os 


>>> os.path.exists('/etc/passwd' ) 
True 


>>> os.path.exists('/tmp/spam' ) 
False 
>>> 





之 后 可 以 执行 进一步 的 测试 来 但 明 这 个 文件 的 
类 型 。 如 果 文 件 不 存在 的 话 ， 下 面 这 些 检测 就 会 返 
a| False: 


>>> # Is a regular file 


>>> os.path.isfile('/etc/passwd' ) 
True 


>>> # Is a directory 


>>> os.path.isdir('/etc/passwd' ) 
False 


>>> # Is a symbolic link 


>>> os.path.islink('/usr/local/bin/python3' ) 
True 


>>> # Get the file linked to 


>>> os.path.realpath('/usr/local/bin/python3' ) 
'/usr/local/bin/python3.3' 
>>> 











如 果 需 要 得 到 元 数据 ( 即 ， 文 件 大 小 或 修改 日 


期 ) ， 这 些 功 能 在 os.path 模 块 中 也 有 提供 : 





>>> os.path.getsize('/etc/passwd' ) 
3669 

>>> os.path.getmtime('/etc/passwd' ) 
1272478234.0 

>>> import time 


>>> time.ctime(os.path.getmtime('/etc/passwd' ) ) 


"Wed Apr 28 13:10:34 2010' 
>>> 


5.12.3 Wir 





利用 os.path 模 块 来 对 文件 做 检测 是 简单 而 直接 
的 。 也 许 在 编写 脚本 时 唯一 需要 注意 的 事情 就 是 关 
于 权限 的 问题 了 一 一 尤其 是 获取 元 数据 的 操作 。 比 
如 : 





>>> os.path.getsize('/Users/guido/Desktop/foo.txt' ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/usr/local/lib/python3.3/genericpath.py", line 49, in ge 
return 


os.stat(filename).st_size 


PermissionError: [Errno 13] Permission denied: '/Users/guido/Des 
>>> 





5.13 ”获取 日 录 内 容 的 列表 
5.13.1 问题 


我 们 想 获取 文件 系统 中 茶 个 目录 下 所 包含 的 文 
件 列 表 。 





5.13.2 ”解决 方案 


可 以 使 用 os.listdirO 函 数 来 获取 目录 中 的 文件 列 
表 。 示 例如 下 : 





import os 


names = os.listdir('somedir' ) 





这 么 做 会 得 到 原始 的 目录 文件 列表 ， 包 括 所 有 
的 文件 、 子 目录 、 符 号 链接 等 。 如 果 需 要 以 某 种 方 
式 来 往 先 数据， 可 以 考虑 利用 列表 推导 式 结 合 
os.path 模 块 中 的 各 种 函数 来 完成 。 示 例如 下 : 


| 











import os.path 


# Get all regular files 


names = [name for 


name in 


os.listdir('somedir' ) 
if 


os.path.isfile(os.path.join('somedir', name) ) ] 
# Get all dirs 


dirnames = [name for 


name in 


os.listdir('somedir' ) 
if 


os.path.isdir(os.path.join('somedir', name) ) | 
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目录 中 的 内 容 也 同样 有 用 。 比 如 : 


name in 


os.listdir('somedir' ) 
if 


name.endswith('.py')] 





至 于 文件 名 的 匹配 ， 可 能 会 想到 用 glob 或 者 
fnmatch 模 块 。 示 例如 下 : 





import glob 


pyfiles = glob.glob('somedir/*.py') 


from fnmatch import 


fnmatch 
pyfiles = [name for 


name in 


os.listdir('somedir' ) 
if 


fnmatch(name, '*.py')] 


Le 


5.13.3 ”讨论 


得 到 目录 中 内 容 的 列表 很 简单 ， 但 是 这 只 会 带 
来 目录 中 每 个 条 目的 名 称 。 如 果 想 得 到 一 些 附 加 的 
元 数据 ， 比 如 文件 大 小 、 修 订 日 期 等 ， 要 么 使 用 
os.path 模 块 中 的 其 他 函数 ， 要 么 使 用 os.stat0 函 数 。 
要 收集 这 些 数据 ， 请 参见 示例 : 











# Example of getting a directory listing 


import os 


import os.path 


import glob 


pyfiles = glob.glob('*.py') 


# Get file sizes and modification dates 


name_sz_date = [(name, os.path.getsize(name), os.path.getmtime(n 
for 


name in 


pyfiles ] 


for 


name, size, mtime in 


name_sz date: 
print 


(name, size, mtime) 


# Alternative: Get file metadata 


file_metadata = [(name, os.stat(name)) for 


name in 


pyfiles ] 
for 


name, meta in 


file metadata: 
print 


(name, meta.st_size, meta.st_mtime) 

















最 后 但 也 很 重要 的 是 ， 请 注意 有 关 文 件 名 编码 
时 会 出 现 的 一 些微 妙 问题 。 一 般 来 说 ， 像 os.listdir() 
这 样 的 函数 返回 的 条 目 都 会 根据 系统 默认 的 文件 名 
编码 方式 来 进行 解码 处 理 。 但 是 ， 有 可 能 在 特定 的 
条 件 下 会 遇 到 无 法 解码 的 文件 名 。5.14 节 和 5.15 节 
中 有 更 多 关于 处 理 这 样 的 名 称 时 应 该 注意 的 细节 。 

















5.14 ” 绕 过 文件 名 编码 
5.14.1 问题 
我 们 想 对 使 用 了 原始 文件 名 的 文件 执行 1/O 操 


作 ， 这 些 文件 名 没有 根据 默认 的 文件 名 编码 规则 来 
解 公 或 编码 。 





5.14.2 解决 方 采 

默认 情况 下 ， 所 有 的 文件 名 都 会 根据 
sys.getfilesystemencoding() 返 回 的 文本 编码 形式 进行 
AS AAS. PY: 


>>> sys.getfilesystemencoding( ) 


>>> 


OAR FEF ACHE JAAR AM AS, FY EH 
原始 字 市 串 来 指定 文件 名 。 示 例如 下 : 


>>> # Wrte a file using a unicode filename 
>>> with 





open('jalape\xf1 


o.txt', 'w') as 


f.write('Spicy!') 


6 
>>> # Directory listing (decoded) 


>>> import os 


>>> os.listdir('.') 
['jalapefo.txt' ] 


>>> # Directory listing (raw) 
>>> os.listdir(b'.') # Note: byte string 


[b'jalapen\xcc\x830.txt' ] 


>>> # Open file with raw filename 


>>> with 


open(b'jalapen\xcc\x83 
o.txt') as 


fi 
print 


(f.read()) 


Spicy! 
>>> 





在 上 两 个 操作 中 可 以 看 到 ， 当 给 同文 件 相 关 的 








函数 比如 open0 和 os.listdirO 提 供 字 节 串 参数 时 ， 对 
文件 名 的 处 理 葡 发生 了 微小 的 改变 。 


5.14.3 ”讨论 


一 般 情 况 下 ， 不 应 该 去 担心 有 关 文 件 名 编码 和 
解码 的 问题 一 一 普通 的 文件 名 操作 应 该 能 正名 工 
作 。 但 是 ， 有 许多 操作 系统 可 能 会 允许 用 户 通 过 意 
外 或 恶意 的 方式 创建 出 文件 名 不 遭 守 期 望 的 编码 规 
则 的 文件 。 这 样 的 文件 名 可 能 会 使 得 处 理 大 量 文件 
的 Python 程序 莫名 其 妙 地 裔 误 。 


在 读 取 目录 和 同文 件 名 打交道 时 ， 以 原始 的 未 
解码 的 字 市 作为 文件 名 就 可 以 避免 这 样 的 问题 ， 只 
是 编程 的 时 候 要 肝 烦 一 些 。 


请 参见 5.15 节 中 关于 打印 出 无 法 解码 的 文件 名 
的 相关 示例 。 





5.15 ”打印 无 法 解码 的 文件 名 
5.15.1 问题 


我 们 的 程序 接收 到 一 个 目录 内 容 的 列表 ， 但 是 
当 程 序 试 着 打印 出 文件 名 时 ， 会 出 现 
UnicodeEncodeError 异 常 并 伴随 着 一 条 难以 理解 的 
提示 信息 :“ 不 允许 代理 (surrogates not 
allowed) ”, JETE at Haine S o 


5.15.2 解决 方案 


当 打 印 来 路 不 明 的 文件 名 时 ， 可 以 使 用 下 面 的 
方式 来 避免 出 现 错误 : 





def 


bad_filename(filename) : 
return 


repr(filename)[1:-1] 
try 


print 


(filename ) 
except UnicodeEncodeError 


print 


(bad_filename( filename) ) 





5.15.3 wir 





当 程 序 必须 去 操纵 文件 系统 时 ， 本 市 提 到 了 一 
个 一 般 情况 下 很 罕见 但 却 非常 令 人 头疼 的 问题 。 默 
认 情 况 下 ，Python 假 设 所 有 的 文件 名 都 是 根据 
sys.getfilesystemencoding() 返 回 的 编码 形式 进行 编码 
的 。 但 是 ， 茶 些 文件 系统 不 一 定 会 强制 执行 这 种 编 
码 约 束 ， 因 此 会 允许 文件 以 不 恰当 的 编码 方式 来 命 
名 。 这 并 不 稼 见 ， 但 是 总 有 某 些 用 户 会 做 出 些 轧 春 
的 事情 ， 意 外 地 创建 出 这 么 一 个 文件 来 〈 即 ， 可 能 
在 某 些 有 问题 的 代码 中 将 不 恰当 有 的 文件 名 传 给 
open()) 。 因 此 危险 总 是 存在 的 。 

















当 执 行 类 似 os.listdir() 这 样 的 命令 时 ， 错 误 的 文 
件 名 会 使 Python 陷入 窘迫 的 境地 。 一 方面 Python 不 
ARBRE MARINAS, MAAR EAE 
件 名 转 为 合适 的 文本 字符 串 。 对 于 这 个 问题 ， 
Python 的 解决 方案 是 在 文件 名 中 取出 一 个 无 法 解码 











的 字 节 值 \Xhh， 将 其 映射 到 一 个 所 谓 的 “代理 编 但 
(surrogate encoding) ”中 ， 代 理 编 码 由 Unicode 字 
从 \udchh 来 表示 。 参 见 下 面 的 示例 ， 在 一 个 有 缺陷 
的 目录 列表 中 包含 着 一 个 名 为 bid.txt 的 文件 ， 该 文 
件 名 的 编码 方式 为 Latin-1 而 不 是 UTF-8， 我 们 来 看 





看 显示 出 来 的 结 


>>> import os 


>>> files = os.listdir('.') 

>>> files 

['spam.py', 'b\udce4d.txt', 'foo.txt'] 
>>> 











如 果 代 人 码 只 是 用 来 操纵 文件 名 或 者 甚至 是 将 文 
件 名 传递 给 函数 〈 比 如 open0) ， 一 切 都 能 正常 工 
作 。 只 有 当 想 把 文件 名 输出 时 才 会 陷入 矿 烦 《〈 即 ， 
打印 到 屏幕 、 记 录 到 日 志 上 等 ) 。 有 具体 而 言 ， 如 果 
试 着 打印 上 面 这 个 列表 ， 程 序 束 会 骨 尝 : 








>>> for 


name in 


files: 
print 


(name ) 


spam.py 
Traceback (most recent call last): 
File "<stdin>", line 2, in <module> 
UnicodeEncodeError: 'utf-8' codec can't encode character '\udce4 
position 1: surrogates not allowed 
>>> 








朋 溃 的 原因 在 于 字符 \udce4 不 是 合法 的 Unicode 





字符 。 它 实际 上 是 2 字符 组 合 的 后 半 部 分 ， 这 个 组 





合 称 为 代理 对 (surrogate pair) 。 但 是 ， 由 于 前 半 
部 分 丢失 了 ， 因 此 是 非法 的 Unicode。 上 所 以 ， 唯 一 
能 成 功 产 生 输 出 的 方式 是 ， 当 遇 到 有 问题 的 文件 名 
时 采取 纠正 措施 。 比 如 ， 将 代码 改 为 下 面 的 方式 就 
能 产生 出 结果 了 : 





print 


(name) 
except UnicodeEncodeError 


print 
(bad_filename(name) ) 
spam. py 


b\udce4d. txt 
foo. txt 


>>> 





函数 bad_filename0O 要 实现 什么 功能 很 大 程度 上 
取决 于 上 自己 的 选择 。 比 如 ， 男 一 种 选择 是 以 其 他 方 
式 重 新 编码 ， 束 像 这 样 : 


def 


bad_filename(filename) : 


temp = filename.encode(sys.getfilesystemencoding(), errors=' 
return 


temp .decode('latin-1' ) 





如 果 使 用 上 面 这 个 版 本 的 bad_filename()， 束 会 
产生 如 下 的 输出 : 





>>> for 


name in 


files: 


try 


print 


(name) 


except UnicodeEncodeError 


print 


(bad_filename(name) ) 
spam. py 
bad.txt 


foo.txt 
>>> 


| 


大 部 分 读者 可 能 部 会 急 略 这 一 市 的 内 容 。 但 
是 ， 如 末 要 编写 完成 天 键 任务 的 脚本 ， 和 十 要 可 徘 地 
与 文件 名 以 及 文件 系统 打交道 ， 那 么 束 需 要 好 好 考 
谋 本 节 的 内 容 。 人 否则 ， 可 能 束 需 要 周末 被 叫 去 办 公 
室 调 试 一 个 看 似 无 法 理解 的 错误 。 








5.16 ”为 已 经 打开 的 文件 添加 或 修 
改编 码 方式 
5.16.1 问题 


我 们 想 为 一 个 已 经 打开 的 文件 添加 或 修改 
Unicode 编 码 ， 但 不 必 首 先 将 其 关闭 。 


5.16.2 HERIR 
如 果 想 为 一 个 以 二 进 制 模式 打开 的 文件 对 象 添 


加 Unicode 编 码 /解码 ， 可 以 用 io.TextIOWrapperO 对 
象 将 其 包装 。 示 例如 下 : 


import urllib.request 


import io 


u = urllib.request.urlopen( 'http://www.python.org' ) 
f = 10.TextIOWrapper(u, encoding='utf-8' ) 
text = f.read() 








如 果 想 修改 一 个 已 经 以 文本 模式 打开 的 文件 的 
编码 方式 ， 可 以 在 用 新 的 编码 蔡 换 之 前 的 编码 前 ， 
用 detach() 方 法 将 已 有 有 的 文本 编码 层 移 除 。 下 面 是 修 
改 sys.stdout 编 码 的 例子 : 


>>> import sys 


>>> sys.stdout.encoding 
'UTF-8' 
>>> sys.stdout = i0.TextIOWrapper(sys.stdout.detach(), encoding= 


>>> sys.stdout.encoding 
‘latin-1' 
>>> 





这 么 做 可 能 会 破坏 终 痢 上 的 输出 ， 这 里 只 古 用 
做 说 明 使 用 。 


5.16.3 ”讨论 
IO 系统 是 以 一 系列 的 层次 来 构建 的 。 我 们 可 


以 通过 下 面 这 个 涉及 文本 文件 的 简单 例子 来 观察 这 
些 层次 : 





>>> f = open('sample.txt', 'w') 

>>> f 

<_io.TextIOWrapper name='sample.txt' mode='w' encoding='UTF-8'> 
>>> f.buffer 

<_io.Bufferedwriter name='sample.txt'> 

>>> f.buffer.raw 


<_10.FileIO name='sample.txt' mode='wb'> 
>>> 





在 这 个 例子 中 ，io.TextIOWrapper 是 一 个 文本 
处 理 层 ， 它 负责 编码 和 解码 Unicode。 而 
io.BufferedWriter 是 一 个 绥 冲 IO 层 ， 负 贡 处 理 二 进 
制 数据 。 最 后 ，io.FileIO 是 一 个 原始 文件 ， 代 表 看 
操作 系统 底层 的 文件 描述 符 。 添 加 或 修改 文本 的 编 
码 涉及 添加 或 修改 最 上 层 的 io.TextIOWrapper 层 。 








作为 一 般 的 规划 ， 下 接 通 过 访问 上 面 展示 的 属 
性 来 操纵 不 同 的 层次 是 不 安全 的 。 比 如 ， 如 果 用 这 
种 技术 来 修改 编码 的 话 ， 看 看 会 出 现 什么 情况 : 











>>> f 


<_1i0.TextIOWrapper name='sample.txt' mode='w' encoding='UTF-8'> 
>>> f = 10.TextIOWrapper(f.buffer, encoding='latin-1' ) 
>>> f 
<_1i0.TextIOWrapper name='sample.txt' encoding='latin-1'> 
>>> f.write('Hello' ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in 


<module> 
ValueError 


: I/O operation on closed file. 
>>> 





这 根本 不 起 作用 ， 因 为 {之 前 的 值 已 经 被 销 
或 ， 在 这 个 过 程 中 导致 压 层 的 文件 被 关闭。 


detach() 方 法 将 最 上 层 的 io.TextIOWrapper 层 同 
MFA SIT, FRR TK 
(io Butfered Writer) 返回 。 在 这 之 后 ， 最 上 层 将 不 
再 起 作用 。 示 例如 下 : 








>>> f = open('sample.txt', 'w') 

>>> f 

<_1i0.TextIOWrapper name='sample.txt' mode='w' encoding='UTF-8'> 
>>> b = f.detach() 

>>> b 

<_io.Bufferedwriter name='sample.txt'> 

>>> f.write('hello' ) 


Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ValueError: underlying buffer has been detached 
>>> 





Asem, BOA AAIR H Za Ras 
IRER. ANIA FP: 


>>> f = 10.TextIOWrapper(b, encoding='latin-1') 
>>> f 
<_1i0.TextIOWrapper name='sample.txt' encoding='latin-1'> 


>>> 








尽管 这 里 我 们 已 经 展示 了 如 何 修改 编码 方式 ， 
也 可 以 利用 这 项 技术 来 修改 文本 行 的 处 理 、 错 


误 处 理 机 制 以 及 其 他 有 关 文 件 处 理 方 面 的 行为 。 示 
例如 下 : 


>>> sys.stdout = i0.TextIOWrapper(sys.stdout.detach(), encoding= 


errors='xmlcharrefreplace' ) 
>>> print 


('Jalape\uoof1 


o') 
Jalapefio 
>>> 





在 输出 中 ， 我 们 注意 到 非 ASCII 字 符 站 已 经 被 
&#241 所 取代 了 。 


5.17 将 字 节 数据 写 入 文本 文件 
5.17.1 问题 


我 们 想 将 一 些 原始 字 市 写 入 到 以 文本 模式 打开 
的 文件 中 。 


5.17.2 ”解决 方案 


只 需要 简单 的 将 字 节 数据 写 入 到 文件 奔 层 的 
buffer 中 束 可 以 了 。 示 例如 下 : 


>>> import sys 


>>> sys.stdout.write(b'Hello\n 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: must be str, not bytes 


>>> sys.stdout.buffer.write(b'Hello\n 








同样 地 ， 我 们 也 可 以 从 文本 文件 中 读 取 二 进 制 
数据 ， 只 要 通过 buffer 属 性 来 读 取 即 可 。 





5.17.3 ”讨论 


IO 系统 是 以 不 同 的 层次 来 构建 的 。 文 本 文件 
是 通过 在 绥 冲 的 二 进 制 模式 文件 之 上 添加 一 个 
Unicode 编 码 / 解 码 层 来 构建 的 。buffer 属 性 简单 地 指 
问 展 层 的 文件 。 如 果 访 问 该 属性 ， 束 可 以 绕 过 文本 
编码 /解码 层 了 。 


例子 中 的 sys.stdout 可 以 被 视 为 特殊 情况 。 默 认 
情况 下 ，sys.stdout 总 是 以 文本 模式 打开 的 。 但 是 ， 
如 果 要 编写 一 个 需要 将 二 进 制 数据 转 储 到 标准 输出 
的 脚本 ， 就 可 以 使 用 上 和 面 演示 的 技术 来 绕 过 文本 编 
TE 























5.18 (OAH SCE IA AL A 
文件 对 象 


5.18.1 问题 


我 们 有 一 个 以 整数 值 表示 的 文件 摘 述 符 ， 写 已 
经 同 操作 系统 中 已 打开 的 MO 通道 建立 起 了 联系 
( 即 ， 文 件 、 管 道 、socket 等 ) 。 而 我 们 希望 以 高 
级 的 Python 文件 对 象 来 包装 这 个 文件 描述 符 。 








5.18.2 ”解决 方案 


文件 插 述 符 与 一 般 打开 的 文件 相 比 是 有 区 别 
的 。 区 别 在 于 ， 文 件 描述 符 只 是 一 个 由 操作 系统 分 
配 的 整数 句柄 ， 用 来 指 代 休 种 系统 IO 通道 。 如 宋 
刚好 有 这 样 一 个 文件 搬 述 符 ， 束 可 以 通过 open() 函 
数 用 Python 文件 对 象 对 其 进行 包 猴 。 这 很 简单 ， 只 
需 将 整数 形 陈 的 文件 描述 符 作 为 第 一 个 参数 取代 文 
件 名 融 可 以 了 。 示 例如 下 : 








# Open a low-level file descriptor 


import os 


fd = os.open('somefile.txt', os.O0_WRONLY | os.0_CREAT) 
# Turn into a proper file 


f = open(fd, ‘wt') 
f.write('hello world\n 


') 
f.close() 








当 高 层 的 文件 对 象 被 关闭 或 销毁 时 ， 底 层 的 文 
件 摘 述 人 符 也 会 被 关闭。 如 果 不 想 要 这 种 行为 ， 只 需 
给 open() 提 供 一 个 可 选 的 closefd=False 参 数 即 可 。 示 
例如 下 : 


# Create a file object, but don't close underlying fd when done 


f = open(fd, ‘wt', closefd=False) 





5.18.3 ”讨论 


FEUNIX AE, PPI PHIRI AN 


可 以 用 来 方便 地 对 以 不 同方 式 打 开 的 IO 通道 
CBU, iE. socket) 提供 一 个 类 似 于 文件 的 接 
口 。 人 例如， 下面 是 一 个 有 关 socket 的 例子 : 


from Socket Import 


socket, AF_INET, SOCK_STREAM 
def 


echo_client(client_sock, addr): 
print 


('Got connection from', addr) 
# Make text-mode file wrappers for socket reading/writing 


client_in = open(client_sock.fileno(), 'rt', encoding='latin 
closefd=False) 


client_out = open(client_sock.fileno(), 'wt', encoding='lati 
closefd=False) 
# Echo lines back to the client using file I/0 


for 


line in 


client_in: 
client_out.write(line) 
client_out.flush() 
client_sock.close() 
def 





echo_server(address ) : 
sock = socket(AF_INET, SOCK_STREAM) 
sock. bind(address) 
sock. listen(1) 
while 


True: 
client, addr = sock.accept() 
echo_client(client, addr) 








需要 重点 强调 的 是 ， 上 面 的 例子 仅仅 只 是 用 来 
说 明 内 建 的 open0 函 数 的 一 种 特性 ， 而 有 旦 只 能 工作 
在 基于 UNIX 的 系统 之 上 。 如 果 想 在 socket 上 加 上 一 
个 类 似 文件 的 接口 ， 并 且 需 要 做 a 到 跨 平 台 ， 那 么 就 
应 该 使 用 socket 的 makefile0) 方 法 来 蔡 代 。 但 是 ， 如 
果 不 需 要 考虑 可 移植 性 的 话 ， 束 会 发 现 上 和 面 给 出 的 
解决 方案 在 性 能 上 要 比 makefile() 高 出 不 少 。 








也 可 以 利用 这 项 技术 为 一 个 已 经 打开 的 文件 创 
建 一 种 别名 ， 使 得 它 的 工作 方式 能 够 稍微 区 列 于 首 
次 打开 时 的 样子 。 比 方 资 ， 下 面 这 段 代码 告诉 我 们 
如 何 创 建 一 个 文件 对 象 ， 使 得 它 能 够 在 stdout 上 产 
J ( 通 第 stdout 十 以 文本 模式 打开 

J) : 


import sys 








# Create a binary-mode file for stdout 


bstdout = open(sys.stdout.fileno(), 'wb', closefd=False) 
bstdout.write(b'Hello World\n 


') 
bstdout.flush() 





尽管 我 们 可 以 将 一 个 已 存在 的 文件 描述 符 包装 
成 一 个 合适 的 文件 ， 但 是 请 注意 ， 并 非 所 有 的 文件 





模式 都 可 以 得 到 支持 ， 而 且 某 些 特定 类 型 的 文件 摘 
述 符 可 能 还 带 有 有 趣 的 副作用 尤其 是 在 面 对 错误 
处 理 、 文 件 结尾 的 情况 时 ) 。 有 基体 的 行为 也 可 能 因 
为 操作 系统 的 不 同 而 有 所 区 别 。 特 别 是 ， 上 和 面 所 有 
的 示例 代码 都 没 法 在 非 UNIX 系 统 上 工作 。 因 此 ， 
最 基本 的 的 线束 是 需要 对 目 己 的 实现 进行 彻 展 的 测 
试 ， 确 你 代码 能 够 按照 期 望 的 方式 工作 。 














5.19 ”创建 临时 文件 和 目录 


5.19.1 问题 





当 程 序 运行 时 ， 我 们 需要 创建 临时 文件 或 目录 
以 便 使 用 。 在 这 之 后 ， 我 们 可 能 希望 将 这 些 文 件 和 
目录 销毁 挥 。 





5.19.2 ”解决 方案 


tempfile 模 块 中 有 各 种 函数 可 以 用 来 完成 这 个 
任务 。 要 创建 一 个 未 命名 的 临时 文件 ， 可 以 使 用 


tempfile.TemporaryFile: 





from tempfile import 


TemporaryFile 
with 


TemporaryFile('wtt') as 


fr 
# Read/write to the file 


f.write('Hello World\n 


f.write('Testing\n 


# Seek back to beginning and read the data 


f.seek(0) 
data = f.read() 
# Temporary file is destroyed 








a 或 者 如 果 你 喜欢 的 话 ， 也 可 以 像 这 样 使 用 文 


f = TemporaryFile('wtt') 
# Use the temporary file 


f.close() 
# File is destroyed 





TemporaryFile() 的 第 一 个 参数 古文 件 模式 ， 通 
第 以 w+t 处 理 文本 模式 而 以 wtb 处理 二 进 制 数据 。 
这 个 模式 可 同时 文 持 读 写 ， 在 这 里 是 很 有 用 的 ， 因 
为 天 闭 文 件 后 再 来 修改 模式 实际 上 会 销毁 文件 对 
象 。 此 外 ，TemporaryFile() 也 可 以 接受 和 内 建 的 
open() 函 数 一 样 的 参数 。 示 例如 下 : 








with 


TemporaryFile('w+t', encoding='utf-8', errors='ignore') as 


fa 





在 大 多 数 UNIX 系 统 上 ， 由 TemporaryFileO 创 建 
的 文件 都 是 未 命名 的 ， 而 且 在 目录 中 也 没有 对 应 的 
条 有 目 。 如 果 想 解放 这 种 限制 ， 可 以 使 用 
NamedTemporaryFile()K tt. AWE F: 











from tempfile import 


NamedTemporaryFile 
with 


NamedTemporaryFile('wtt') as 


f: 
print 


('filename is:', f.name) 


# File automatically destroyed 


ee 


XE, EEH FLK fname ERRES 
临时 文件 的 文件 名 。 如 果 需 要 将 它 传 给 其 他 需要 打 
开 这 个 文件 的 代码 时 ， 这 就 显得 很 有 用 了 。 对 于 
TemporaryFile() 而 言 ， 结 果 文 件 会 在 关闭 时 目 动 市 
除 。 如 果 不 想 要 这 种 行为 ， 可 以 提供 一 个 
delete=False 关 键 字 参数 。 示 例如 下 : 














with 


NamedTemporaryFile('w+t', delete=False) as 


f: 
print 


('filename is:', f.name) 





要 创建 一 个 临时 目录 ， 可 以 使 用 
tempfile.TemporaryDirectory() 来 实现 。 示 例如 下 : 


from tempfile import 


TemporaryDirectory 
with 


TemporaryDirectory() as 


dirname: 
print 


('dirname is:', dirname) 


# Use the directory 


# Directory and all contents destroyed 





5.19.3 wir 


要 和 临时 文件 还 有 临时 目录 打交道 ， 最 方便 的 
方式 就 是 使 用 TemporaryFile()、 
NamedTemporaryFile() 以 及 TemporaryDirectory() 这 





三 个 函数 了 。 因 为 它们 能 自动 处 理 有 关 创 建 和 清除 
的 所 有 步骤 。 从 较 低 的 层次 来 看 ， 也 可 以 使 用 
mkstemp() 和 mkdtemp() 来 创建 临时 文件 和 目录 。 示 
例如 下 : 


>>> import tempfile 


>>> tempfile.mkstemp() 
(3, '/var/folders/7W/7WZ15sfZEFOp1jrEBIUMWE+++TI/-Tmp-/tmp7fefhv 


>>> tempfile.mkdtemp() 
'/var/folders/7W/7wWZ15sfZEFOp1jrEBIUMWE+++TI/-Tmp-/tmp5wvcve6 ' 
>>> 





但 是 ， 这 些 函 数 并 不 会 进一步 去 处 理 文件 官 理 
的 任务 。 例 如 ，mkstempO 函 数 只 是 简单 地 返回 一 
个 原始 的 操作 系统 文件 描述 符 ， 然 后 由 我 们 目 行 将 
其 转换 为 一 个 合适 的 文件 。 同 样 地 ， 如 果 想 将 文件 
清理 挥 的 话 ， 这 个 任务 也 是 由 我 们 自己 完成 。 


一 般 情 况 下 ， 临 时 文件 都 是 在 系统 默认 的 区 域 
中 创建 的 ， 比 如 /var/tmp 或 者 类 似 的 地 方 。 要 找 出 
实际 的 位 置 ， 可 以 使 用 tempfile.gettempdir() 隙 数 。 
示例 如 下 : 











>>> tempfile.gettempdir() 
'/var/folders/7W/7wWZ15sfZEFOp1jrEB1UMWE+++TI/-Tmp-' 
>>> 


[L SCR 


所 有 同 临时 文件 相关 的 函数 都 允许 使 用 
prefix、suffix 和 dir 关 键 字 参数 来 禾 着 目录 。 例 如 : 


>>> f = NamedTemporaryFile(prefix='mytemp', suffix='.txt', dir=' 
>>> f.name 

/tmp/mytemp8ee8s99.txt' 

>> 


> 





最 后 但 也 很 重要 的 是 ， 在 可 能 的 范围 内 ， 
tempfile 模 块 创 建 的 临时 文件 都 是 以 最 安全 的 方式 
来 进行 的 。 这 包括 只 为 当前 用 户 提 供 可 访问 的 权 
限 ， 并 且 在 创建 文件 时 采取 了 相应 的 步骤 来 避免 出 
现 竞 态 条 件 。 请 注意 ， 在 不 同 的 平台 下 这 可 能 会 有 
一 些 区 别 。 因 此 ， 对 于 更 精细 的 要 点 ， 应 该 确保 自 
己 去 但 阅 官 方 文档 
(http://docs.python.org/3/library/tempfile.html ) 。 











5.20” 同 串口 进行 通信 


5.20.1 问题 





我 们 想 通 过 串口 读 取 和 写 入 数据 ， 典 型 情况 下 
是 同 茶 种 人 硬件 设备 进行 交互 “ 即 ， 机 磊 人 或 传 感 
fit) o 





5.20.2 ”解决 方案 


尽管 可 以 直接 通过 Python 内 建 的 MO 原 语 来 完成 
这 个 任务 ， 但 对 于 串口 通信 来 说 ， 最 好 还 是 使 用 
pySerial 包 比较 好 。 这 个 包 使 用 起 来 非常 简单 ， 要 
打开 一 个 串口 ， 只 要 使 用 这 样 的 代码 即 可 : 








import serial 


ser = serial.Serial('/dev/tty.usbmodem641', # Device name varies 


baudrate=9600, 
bytesize=8, 
parity='N', 
stopbits=1) 





设备 名 称 可 能 会 根据 设备 的 类 型 和 操作 系统 而 
有 所 不 同 。 比 如 ， 在 Windows 上 ， 可 以 使 用 0、1 这 
样 的 数字 代表 设备 来 打开 通信 端口 ， 比 
如 “COM0” 和 “COM1”。 一旦 打开 后 ， 就 可 以 通过 
read()、readline() 和 write() 调 用 来 读 写 数据 了 了。 示例 
如 下 : 


ser.write(b'G1 X50 Y50\r\n 


resp = ser.readline() 








从 这 一 点 来 看 ， 大 部 分 情况 下 的 串口 通信 任务 


ya VO. 





5.20.3 wir 


Re en ROR Ra, POMA a a EE 
得 相当 混乱 。 应 该 使 用 一 个 像 pySerial 这 样 的 包 的 
原因 残 在 于 它 对 一 些 高 级 特性 提供 了 文 持 〈 即 ， 超 
时 处 理 、 流 控 、 刷 新 绥 冲 区 、 握 手机 制 等 ) 。 比 
如 ， 如 果 想 开启 RTS-CTS 握 手 ， 只 要 简单 地 为 
Serial() 提 供 一 个 rtscts==True 天 键 字 参数 即 可 。 
pySerial 提 供 的 文档 非常 棒 ， 所 以 在 这 里 多 解释 也 








没 多 大 用 处 。 


请 记 住 所 有 涉及 串口 的 VO 操作 都 是 二 进 制 
的 。 因 此 ， 确 你 在 代码 中 使 用 的 是 字 节 而 不 是 文本 
(或 者 根据 需要 执行 适当 的 文本 编码 /解码 操作 〉。 
当 需 要 创建 以 二 进 制 编码 的 命令 或 者 数据 包 时 ， 
struct 模 块 也 会 起 到 不 少 作 用 。 











5.21 序列 化 Python 对 象 
5.21.1 问题 
我 们 需要 将 Python 对 象 序 列 化 为 字 节 流 ， 这 样 


就 可 以 将 其 保存 到 文件 中 、 存 储 到 数据 库 中 或 者 通 
过 网 络 连接 进行 传输 。 








5.21.2 ”解决 方案 


序列 化 数据 最 常见 的 做 法 束 是 使 用 pickle 模 
块 。 要 将 菏 个 对 象 转 储 到 文件 中 ， 可 以 这 样 做 : 


import pickle 


data = ... # Some Python object 


f = open('somefile', 'wb') 
pickle.dump(data, f) 








有 要 将 对 象 转 储 为 字符 串 ， 可 以 使 用 
pickle.dumps(): 


s = pickle.dumps(data) 


如 果 要 从 字 市 流 中 重新 创建 出 对 象 ， 可 以 使 用 
pickle.load0) 或 者 pickle.loads() 函 数 。 示 例如 下 : 





# Restore from a file 


f = open('somefile', 'rb') 
data = pickle.load(f) 


# Restore from a string 


data = pickle.loads(s) 





5.21.3 ”讨论 


对 于 大 部 分 程序 来 说 ， 只 要 掌握 dump() 和 
load0 函 数 的 用 法 就 可 以 高 效 地 利用 pickle 模 块 了 。 
pickle 模 块 能 够 兼容 大 部 分 Python 数据 类 型 和 用 户 自 
定义 的 类 实例 。 如 果 正 在 使 用 的 库 可 以 保存 /恢复 
Python 对 象 到 数据 库 中 ， 或 者 通过 网 络 传输 对 象 ， 
那么 很 有 可 能 残 在 使 用 pickle。 


pickle 是 一 种 Python 专 有 的 目 描述 式 的 数据 编 
人 码 。 说 到 自 描 述 ， 因 为 序列 化 的 数据 中 包含 有 每 个 

















对 象 的 开始 和 结束 以 及 有 关 对 象 类 型 的 信息 。 

此 ， 不 需要 担心 应 该 如 何 定 义 记录 一 一 pickle 束 能 
完成 了 。 例 如 ， 如 果 需 要 处 理 多 个 对 象 ， 可 以 这 么 
做 : 


import pickle 





f = open('somedata', 'wb') 

pickle.dump([1, 2, 3, 4], f) 
pickle.dump('hello', f) 
pickle.dump({'Apple', 'Pear', 'Banana'}, f) 
f.close() 

f = open('somedata', 'rb') 


pickle.load(f) 
1, 2, 3, 4] 
pickle.load(f) 
'hello' 
>>> pickle.load(f) 
{'Apple', 'Pear', 'Banana'} 
>>> 





可 以 对 函数 、 类 以 及 实例 进行 pickle 处 理 ， 但 
由 此 产生 的 数据 只 会 对 代码 对 象 所 关联 的 名 称 进 行 
编码 。 例 如 : 





>>> import math 


>>> import pickle. 


>>> pickle.dumps(math.cos) 
b'\x80\xO3cmath\ncos\nq\x00. ' 





He 


当 对 数据 做 反 序列 化 处 理 时 ， 会 假设 所 有 所 需 
的 源 文件 都 是 可 用 的 。 模 块 、 类 以 及 函数 会 根据 需 


自动 寻 入 。 对 于 需要 在 不 同 机 右上 的 解释 胡 之 间 


共享 Python 数 据 的 应 用 ， 这 会 成 为 一 个 潜在 的 维护 


性 问题 ， 因 为 所 有 的 机 大 都 必须 能 够 访问 到 相同 的 
源 代码 。 
S ux 


的 。 


绝对 不 能 对 非 受 信任 的 数据 使 用 
pickle.load()。 由 于 会 产生 副作用 ，pickle 会 目 
动 加 载 模块 并 创建 实例 。 但 是 ， 了 解 pickle 是 
如 何 运 作 的 蓄 客 可 以 故意 创建 出 格式 不 正确 的 
数据 ， 使 得 Python 解 释 器 有 机 会 去 执行 任意 的 
系统 命令 。 因 此 ， 有 必要 将 pickle 限 制 为 只 在 
内 部 使 用 ， 解 释 器 和 数据 之 间 要 能 够 彼此 验证 
对 方 。 


ER RE SS HIX Bue GIA ET pickle de fF 
这 些 对 象 一 般 来 说 都 会 涉及 某 种 外 部 系统 状 








态 ， 比 如 打开 的 文件 、 打开 的 网 络 连 接 ， 线程 、 进 


程 、 栈 巾 等 。 用 户 自 定义 的 类 有 时 候 可 以 通过 提供 
getstate ”_() 和 ”setstate _ 0 方法 来 规 吉 这 些 限 

制 。 如 果 定 义 了 这 些 方法 ，pickle.dump0) 就 会 调用 
getstate _() 来 得 到 一 个 可 以 被 pickle 处 理 的 对 象 。 
同样 地 ， 在 unpickle 的 时 候 就 会 调用 __setstate_0 

了 。 为 了 说 明 ， 下 面 这 个 类 在 内 部 定义 了 一 个 线 
程 ， 但 是 仍然 可 以 进行 pickle/unpickle 操 作 : 





# countdown. py 


import time 


import threading 


class Countdown 


def 


__init__(self, n): 


self.n=n 


self.thr = threading. Thread(target=self.run) 


self.thr.daemon = True 


self.thr.start() 


def 


run(self): 
while 


self.n > 0: 
print 


('T-minus', self.n) 


self.n -= 1 


time.sleep(5) 


def 


__getstate_ (self): 
return 


self.n 


def 


__setstate_(self, n): 


self.__init__(n) 





用 下 面 的 代码 试验 一 下 pickle 操 作 : 


>>> import countdown 


>>> c = countdown.Countdown(30) 
>>> T-minus 30 

T-minus 29 

T-minus 28 


# After a few moments 


f = open('cstate.p', 'wb') 
import pickle 


pickle.dump(c, f) 
f.close() 














现在 退出 Python， 重 司 之 后 再 试 试 这 个 : 





>>> f = open('cstate.p', 'rb') 
>>> pickle.load(f) 
countdown.Countdown object at 0x10069e2d0> 


T-minus 19 
T-minus 18 





可 以 看 到 线程 又 历法 般 地 重新 焕发 出 生命 了 ， 
而 且 是 从 上 次 执行 pickle 操 作 时 剩 下 的 计数 开始 执 
Te 


对 于 大 型 的 数据 结构 ， 比 如 由 array 模 块 或 
numpy 库 创建 的 二 进 制 数组 ，pickle 束 不 是 一 种 特别 
高 效 的 编码 了 。 如 果 需 要 移动 大 量 的 数组 型 数据 ， 
那么 最 好 人 徐 单 地 将 数据 按 块 保 存在 文件 中 ， 或 者 使 
用 更 加 标准 的 编码 ， 比 如 HDF5〈 由 第 三 方 库 支 


E) 。 


由 于 pickle 是 Python 的 专 有 特性 ， 而 且 同 源 代 

码 的 关联 紧密 ， 因 此 不 应 该 把 pickle 作 为 长 期 存储 
的 格式 。 比 如 说 ， 如 果 源 代码 发 生 改 变 ， 那 么 存储 
的 所 有 数据 就 会 失效 旦 变 得 无 法 读 取 。 坦 白 说 ， 要 
将 数据 保存 在 数据 库 和 归档 存储 中 ， 最 好 使 用 一 种 
更 加 标准 的 数据 编码 ， 比 如 XML、CSV 或 者 
JSON。 这 些 编码 方式 的 标准 化 程度 更 高 ， 许 多 编 
程 语言 都 支持， 而 且 更 能 适应 于 源 代码 的 修改 。 




















最 后 但 同样 重要 的 是 ， 请 注意 pickle 模 块 中 有 
着 大 量 的 选项 和 环 手 的 阴暗 角落 。 对 于 大 部 分 常见 
的 用 途 ， 我 们 不 必 担 心 这 些 问题 。 但 是 如 果 要 构建 
一 个 大 型 的 应 用 ， 其 中 要 用 pickle 来 做 序列 化 的 
话 ， 那 么 就 应 该 好 好 参考 官方 文档 
(http://docs.python.org/3/library/pickle.html ) 。 
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本 章 主要 关注 的 重点 是 利用 Python 来 处 理 以 各 
种 常见 编码 形式 所 呈现 出 的 数据 ， 比 如 CSV 文 件 、 
JSON、XML 以 及 二 进 制 形式 的 打包 记录 。 与 数据 
结构 那 章 不 同 ， 本 章 不 会 把 重点 放 在 特定 的 算法 之 
而 是 着 重 处 理 数 据 在 程序 中 的 输入 和 输出 问题 























6.1 该 写 CSV 数 据 
6.1.1 问题 
我 们 想 要 读 写 CSV 文 件 中 的 数据 。 
6.1.2 解决 方案 
对 于 大 部 分 类 型 的 CSV 数 据 ， 我 们 都 可 以 用 


csv 库 来 处 理 。 比 如 ， 假 设 在 名 为 stocks.csv 的 文件 
中 包含 有 如 下 的 股票 市 场 数据 : 





Symbol, Price, Date, Time, Change, Volume 

"AA", 39.48, "6/11/2007", "9:36am", -0.18, 181800 

"AIG", 71.38, "6/11/2007", "9:36am", -0.15, 195500 
"AXP", 62.58, "6/11/2007", "9:36am", -0.46, 935000 
"BA",98.31,"6/11/2007","9:36am",+0.12, 104800 


"C", 53.08, "6/11/2007", "9:36am", -0.25, 360900 
"CAT", 78.29, "6/11/2007", "9:36am", -0.23, 225400 





下 和 面 的 代码 示例 告诉 我 们 如 何 将 这 些 数 据 读 取 
为 元 组 序列 : 


import csv 


with 


open('stocks.csv') as 


f: 
f_csv = csv.reader(f) 
headers = next(f_csv) 
for 

row in 

f_csv: 


# Process row 








在 上 面 的 代码 中 ，row 将 会 是 一 个 元 组 。 因 





此 ， 要 访问 特定 的 字段 束 需 要 用 到 索引 ， 比 如 
row[0] (表示 Symbol) 和 row[4] (表示 Change) 。 





由 于 这 样 的 夫 引 营 党 容易 混淆 ， 因 此 这 里 可 以 
考虑 使 用 命名 元 组 。 示 例如 下 : 











from collections import 


namedtuple 
with 


open('stock.csv') as 


f_csv = csv.reader(f) 

headings = next(f_csv) 

Row = namedtuple('Row', headings) 
for 


f_csv: 
row = Row(*r) 
# Process row 





这 样 束 可 以 使 用 每 一 列 的 标 头 比如 row.Symbol 
和 row.Change 来 取代 之 前 的 索引 了 。 应 该 要 指出 的 
是 ， 这 个 方法 只 有 在 每 一 列 的 标 头 都 是 合法 的 
Python 标 识 符 时 才 起 作用 。 如 果 不 是 的 话 ， 束 必须 





调整 原始 的 标 头 《比如 ， 把 非 标识 符 字 符 用 下 划 线 
或 其 他 类 似 的 符号 取代 ) 。 


太一 种 可 行 的 方式 是 将 数据 读 取 为 字典 序列 。 
可 以 用 下 面 的 代码 实现 : 


import csv 





with 


open('stocks.csv') as 


f_csv = csv.DictReader(f) 
for 


row in 


f_csv: 
# process row 





在 这 个 版 本 中 ， 可 以 通过 行 标 头 来 访问 每 行 中 
的 元 素 。 比 如 ，row['Symbol] 或 者 row["Change']。 


要 写 入 CSV 数 据 ， 也 可 以 使 用 csv 模 块 来 完 
成 ， 但 是 要 创建 一 个 写 入 对 象 。 示 例如 下 : 





headers = ['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume' | 
rows = [('AA', 39.48, '6/11/2007', '9:36am', -0.18, 181800), 
('AIG', 71.38, '6/11/2007', '9:36am', -0.15, 195500), 
('AXP', 62.58, '6/11/2007', '9:36am', -0.46, 935000), 


open('stocks.csv','w') as 


f_csv = csv.writer(f) 
f_csv.writerow(headers) 
f_csv.writerows(rows ) 





如 果 数 据 是 字典 序列 ， 那 么 可 以 这 样 处 理 : 


headers = ['Symbol', 'Price', 'Date', 'Time', 'Change', 'Volume' 
rows = [{'Symbol':'AA', 'Price':39.48, 'Date':'6/11/2007', 
'Time':'9: ', 'Change':-0.18, 'Volume':181800}, 
{'Symbol':' ', ‘'Price': 71.38, 'Date':'6/11/2007', 
'Time':' ', 'Change':-0.15, 'Volume': 195500}, 
{'Symbol':' ', 'Price': 62.58, 'Date':'6/11/2007', 
'Time':'9:36am', 'Change':-0.46, 'Volume': 935000}, 
] 
with 


open('stocks.csv','w') as 


f_csv = csv.DictWriter(f, headers) 
f_csv.writeheader ( ) 
f_csv.writerows(rows) 





6.1.3 ”讨论 
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己 手 动 分 解 和 解析 CSV 数 据 。 比 如 ， 我 们 可 能 会 倾 
器 于 写 出 这 样 的 代码 : 


with 


open('stocks.csv') as 


row = line.split(',') 
# process row 








这 种 方式 的 问题 在 于 仍然 需要 目 己 处 理 一 些 令 
人 厌烦 的 细节 问题 。 比 如 说 ， 如 果 有 任何 字段 是 被 
引号 括 起 来 的 ， 那 么 区 要 目 己 去 除 引 号 。 此 外 ， 如 
果 被 引用 的 字段 中 恰好 包含 有 一 个 有 辟 号 ， 那 么 产生 
出 的 那 一 行 会 因为 大 小 错误 而 使 得 代码 骨 谈 《因为 
RGR BTR He HS TB) 。 


默认 情况 下 ，csv 库 被 实现 为 能 够 识别 微软 
Excel 所 采用 的 CSV 编 码 规则 。 这 也 许 是 最 为 常见 的 
CSV 编 码 规则 了 ， 能 够 带 来 最 佳 的 兼容 性 。 但 是 ， 
如 果 查 阅 csv 的 文档 ， 就 会 发 现 有 几 种 方法 可 以 将 











编码 微调 为 其 他 的 格式 〔 例 如， 修改 分 隔 字符 
等 ) 。 比 方 说 ， 如 果 想 读 取 以 tab 键 分 隔 的 数据 ， 可 
以 使 用 下 面 的 代码 ; 


# Example of reading tab-separated values 


with 


open('stock.tsv') as 


f: 
f_tsv = csv.reader(f, delimiter='\t 


f_tsv: 
# Process row 





如 果 正 在 读 取 CSV 数 据 并 将 其 转换 为 命名 元 
组 ， 那 么 在 验证 列 标题 时 要 小 心 。 比 如 ， 某 个 CSV 
文件 中 可 能 在 标题 行 中 包含 有 非法 的 标识 符 字 符 ， 





就 像 下 面 的 示例 这 样 H : 


Street Address,Num-Premises,Latitude,Longitude 
5412 N CLARK, 10, 41.980262, -87.668452 





这 会 使 得 创建 命名 元 组 的 代码 出 现 ValueError 
异常 。 要 解决 这 个 问题 ， 应 该 首先 整理 标题 。 例 
如 ， 可 以 对 非法 的 标识 符 字 符 进 行 正 则 蔡 换 ， 示 例 
如 下 : 





import re 


with 


open('stock.csv') as 


f_csv = csv.reader(f) 
headers = [ re.sub('[4a-zA-Z_]', '_', h) for 


next(f_csv) | 
Row = namedtuple('Row', headers) 
for 


f_csv: 
row = Row(*r) 
# Process row 








Veoh, Sis AGRA Ze, csv RASS 
试 去 解释 数据 或 者 将 数据 转换 为 除 字 符 串 之 外 的 类 
型 。 如 末 这 样 的 转换 很 重要 ， 那 么 这 就 是 我 们 需要 
目 行 处 理 的 问题 。 下 面 这 个 例子 演示 了 对 CSV 数 据 
进行 额外 的 类 型 转换 : 





col types = [str, float, str, str, float, int] 
with 


open('stocks.csv') as 


f: 
f_csv = csv.reader(f) 
headers = next(f_csv) 
for 

row in 

f_csv: 


# Apply conversions to the row items 


row = tuple(convert(value) for 


convert, value in 


Zip(col_types, row)) 








作为 万 外 一 种 选择 ， 下 面 这 个 例子 演示 了 将 选 
中 的 字段 转换 为 字典 : 





print 


('Reading as dicts with type conversion') 

field_types = [ ('Price', float), 
('Change', float), 
('Volume', int) ] 

with 


open('stocks.csv') as 


for 


row in 


csv.DictReader(f): 
row.update((key, conversion(row[ key] ) ) 
for 


key, conversion in 


field_types) 
print 


(row) 





一 般 来 次 ， 对 于 这 样 的 转换 都 应 该 小 心 为 上 。 





在 现实 世界 中 ，CSV 文 件 可 能 会 缺少 条 些 值 ， 或 者 
数据 损坏 了， 以 及 出 现 其 他 一 些 可 能 会 使 类 型 转换 
操作 失败 的 情况 ， 这 部 是 很 第 见 的 。 因 此 ， 除 非 可 
以 你 证 数据 不 会 出 错 ， 否 则 就 需要 考虑 这 些 情况 
(也 许 需 要 加 上 适当 的 异 沼 处理 代 码 )。 


最 后 ， 如 果 我 们 的 目标 是 通过 读 取 CSV 数 据 来 
进行 数据 分 析 和 统计 ， 那 么 应 该 看 看 Pandas 这 个 
Python 包 Chttp://pandas.pydata.org )) 。Pandas 中 有 
一 个 方便 的 函数 pandas.read_csvO0， 能 够 将 CSV 数 据 
加 载 到 DataFrame 对 象 中 。 之 后 ， 束 可 以 生成 各 种 
各 样 的 统计 摘要 了 ， 还 可 以 对 数据 进行 粒 选 并 执行 
其 他 类 型 的 高 级 操作 。6.13 节 中 给 出 了 一 个 这 样 的 
例子 。 








6.2” 读 写 JSON 数 据 
6.2.1 问题 


我 们 想 读 写 以 JSON (JavaScript Object 
Notation) 格式 编码 的 数据 。 


6.2.2 ”解决 方案 


json 模 块 中 提供 了 一 种 简单 的 方法 来 编码 和 解 
码 JSON 格 式 的 数据 。 这 两 个 主要 的 函数 就 是 
json.dumpsO 以 及 json.loadsO0。 这 两 个 函数 在 命名 上 
借鉴 了 其 他 序列 化 处 理 库 的 接口 ， 比 如 pickle。 下 
面 的 示例 展示 了 如 何 将 Python 数据 结构 转换 为 
JSON: 














import json 


data = { 
"name' : 'ACME', 
‘shares' : 100, 
'price' : 542.23 


json_str = json.dumps(data) 





而 接 下 来 的 示例 告诉 我 们 如 何 把 JSON 编 码 的 
字符 串 再 转换 回 Python 数 据 结构 : 


data = json.loads(json_str) 


如 果 要 同文 件 而 不 是 字符 串 打 交道 的 话 ， 可 以 
选择 使 用 json.dumpO 以 及 json.load0 来 编码 和 解码 
JSON 数 据 。 示 例如 下 : 





# Writing JSON data 


with 


open('data.json', 'w') as 


f: 
json.dump(data, f) 
# Reading data back 


with 


open('data.json', 'r') as 


f: 
data = json.load(f) 





6.2.3 ”讨论 


JSON 编 码 支 持 的 基本 类 型 有 None、bool、 
int、float 和 str， 当 然 还 有 包含 了 这 些 基 本 类 型 的 列 
表 、 元 组 以 及 字典 。 对 于 字典 ，JSON 会 假设 键 
(key) 是 字符 串 《〈 字 典 中 的 任何 非 字 符 串 键 都 会 
在 编码 时 转换 为 字符 串 ) 。 要 符合 JSON 规 范 ， 应 
该 只 对 Python 列表 和 字典 进行 编码 。 此 外 ， 在 Web 
iil 把 最 项 层 对 象 定义 为 字典 是 一 种 标准 做 
法 。 


JSON 编 码 的 格式 几乎 与 Python 语法 一 致 ， 只 有 
几 个 小 地 方 稍 有 不 同 。 比 如 ，True 会 被 映射 为 
true，EFalse 会 被 映射 为 false， 而 None 会 被 映射 为 
null。 下 面 的 示例 展示 了 编码 看 起 来 是 怎样 的 : 

















>>> json.dumps(False) 
'false' 
>>> d = {'a': True, 


'c': None} 

>>> json.dumps(d) 

'{"b": "Hello", "c": null, "a": true}' 
>>> 





如 果 要 检查 从 JSON 中 解码 得 到 的 数据 ， 那 么 
仅仅 将 其 打印 出 来 就 想 确定 数据 的 结构 通 稼 是 比较 
困难 的 一 一 尤其 是 如 果 数 据 中 包含 了 深层 次 的 级 套 
结构 或 者 有 许多 字段 时 。 为 了 帮助 解决 这 个 问题 ， 
考虑 使 用 pprint 模 块 中 的 pprint0 函 数 。 这 么 做 会 把 
键 按照 字母 顺序 排列 ， 并 且 将 字典 以 更 加 合理 的 方 
式 进行 输出 。 下 面 的 示例 展示 了 应 该 如 何 对 Twitter 
上 的 搜索 结果 以 漂亮 的 格式 进行 输出 : 
































>>> from urllib.request import 


urlopen 
>>> import json 


>>> u = urlopen('http://search. twitter .com/search.json?q=python& 
>>> resp = json.loads(u.read().decode('utf-8')) 
>>> from pprint import 


pprint 
>>> pprint(resp) 
{'completed_in': 0.074, 
'max_id': 264043230692245504, 
'max_id_str': '264043230692245504', 
"next_page': '?page=2&max_1d=264043230692245504&q=python&rpp=s ' 
‘page': 1, 
‘query': 'python', 
'refresh_url': '?since_1d=264043230692245504&q=python', 
'results': [{'created_at': 'Thu, 01 Nov 2012 16:36:26 +0000', 
'from_user': ... 


}, 
{'created_at': 'Thu, 01 Nov 2012 16:36:14 +0000', 
"from_user': ... 


ty 
{'created_at': 'Thu, 01 Nov 2012 16:36:13 +0000', 


"from_user': ... 


{'created_at': 'Thu, 01 Nov 2012 16:36:07 +0000', 
"from_user': ... 


{'created_at': 'Thu, 01 Nov 2012 16:36:04 +0000', 
"from_user': ... 


了 
'results_per_page': 5, 
"since_id': 0, 
"since_id_str': '0'} 

>>> 





一 般 来 说 ，JSON 解 码 时 会 从 所 提供 的 数据 中 
创建 出 字典 或 者 列表 。 如 果 想 创建 其 他 类 型 的 对 
象 ， 可 以 为 json.loads() 方 法 提供 object_pairs_hook 或 
者 object_hook 参 数 。 例 如 ， 下 面 的 示例 展示 了 我 们 
应 该 如 何 将 JSON 数 据 解 码 为 OrderedDict (A JF F 
典 ) ， 这 样 可 以 保持 数据 的 顺序 不 变 : 





>>> s = '{"name": "ACME", "shares": 50, "price": 490.1}' 
>>> from collections import 


OrderedDict 
>>> data = json.loads(s, object_pairs_hook=OrderedDict ) 


>>> data 


OrderedDict([('name', 'ACME'), ('shares', 50), ('price', 490.1)] 
>>> 





而 下 面 的 代码 将 JSON 字 — 典 转变 为 Python 对 象 : 


>>> class JSONObject 


def 


__init__(self, d): 


self. dict á =d 


>>> 
>>> data = json.loads(s, object_hook=JSONObject) 
>>> data.name 

' ACME ' 

>>> data.shares 

50 

>>> data.price 

490.1 

>>> 





在 上 一 个 示例 中 ， 通 过 解码 JSON 数 据 而 创建 
的 字典 作为 单独 的 参数 传递 给 了 _init 0。 之 后 束 
可 以 目 由 地 根据 需要 来 使 用 它 了 ， 比 如 直接 将 它 当 
做 对 象 的 字典 实例 来 用 。 


有 几 个 选项 对 于 编码 JSON 来 说 是 很 有 用 的 。 
如 条 想 让 输出 格式 变 得 漂亮 一 些 ， 可 以 在 
json.dumps() 函 数 中 使 用 indent 参 数 。 这 会 使 得 数据 

















能 够 像 pprint0 函 数 那 样 以 漂亮 的 格式 打印 出 来 。 示 
例如 下 ; 


>>> print 


(json.dumps(data) ) 
{"price": 542.23, "name": "ACME", "shares": 100} 
>>> print 


(json.dumps(data, indent=4) ) 
{ 


"orice": 542.23, 
"name": "ACME", 
"shares": 100 





如 果 想 在 输出 中 对 键 进行 排序 处 理 ， 可 以 使 用 
sort_keys 参 数 : 


>>> print 


(json.dumps(data, sort_keys=True) ) 
{"name": "ACME", "price": 542.23, "shares": 100} 


>>> 








类 实例 一 般 是 无 法 序列 化 为 JSON 的 。 比 如 
说 : 





>>> class Point 


def 


__init__(self, x, y): 
self.x = x 
self.y = y 


>>> p = Point(2, 3) 
>>> json.dumps(p) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "/usr/local/lib/python3.3/json/__init__.py", line 226, in 
return 


_default_encoder .encode(obj ) 
File "/usr/local/1lib/python3.3/json/encoder.py", line 187, in 
chunks = self.iterencode(o, _one_shot=True) 
File "/usr/local/lib/python3.3/json/encoder.py", line 245, in 
return 


_iterencode(o, 0) 
File "/usr/local/lib/python3.3/json/encoder.py", line 169, in 
raise TypeError 


(repr(o) + " is not JSON serializable") 
TypeError: <__main__.Point object at 0x1006f2650> is not JSON se 
>>> 


[L SCR 


如 果 想 序列 化 类 实例 ， 可 以 提供 一 个 函数 将 类 
实例 作为 输入 并 返回 一 个 可 以 被 序列 化 处 理 的 字 
典 。 示 例如 下 : 


def 


serialize_instance(obj): 


d = { '__classname__' : type(obj).__name__ } 
d.update(vars(obj) ) 
return d 





如 果 想 取 回 一 个 实例 ， 可 以 编写 这 样 的 代码 来 
处 理 : 





# Dictionary mapping names to known classes 


classes = { 

"Point' : Point 
} 
def 


unserialize_object(d): 
clsname = d.pop('__classname__', None) 
if 


clsname: 


cls 
obj 


classes[clsname ] 
cls.__new__(cls) # Make instance without calling 


for 


key, value in 


d.items(): 


setattr(obj, key, value) 
return 


return 





最 后 给 出 如 何 使 用 这 些 函 数 的 示例 : 





>>> p = Point(2,3) 

>>> S = json.dumps(p, default=serialize_instance) 
>>> S 

'{"  classname__": "Point", "y": 3, "x": 2}! 


>>> a = json.loads(s, object_hook=unserialize_object) 
>>> a 

<__main__.Point object at 0x1017577d0> 

>>> a.X 

2 

>>> a.y 


json 模 块 中 还 有 许多 其 他 的 选项 ， 这 些 选 项 可 
o 特殊 值 (比如 NaN ) 等 的 底层 解 
释 行 为 。 请 参阅 文档 

a a python.org/3/library/json.html ) 以 获得 

一 步 的 细节 。 





6.3 ”解析 人 徐 单 的 XML 文档 
6.3.1 问题 

我 们 想 从 一 个 简单 的 XML 文 档 中 提取 出 数据 。 
6.3.2 ”解决 方案 

xml.etree.ElementTree 模 块 可 用 来 从 简单 的 
XML 文档 中 提取 出 数据 。 为 了 说 明 ， 假 设想 对 
Planet Python Chttp://planet.python.org ) 上 的 RSS 订 


阅 做 解析 并 生成 一 个 总 结 报告 。 下 面 的 脚本 可 以 完 
成 这 个 任务 : 








from urllib.request import 


urlopen 
from xml.etree.ElementTree import 


parse 
# Download the RSS feed and parse it 


u = urlopen('http://planet.python.org/rss20.xml' ) 
doc = parse(u) 
# Extract and output tags of interest 


for 
item in 


doc.iterfind('channel/item' ): 
title = item. findtext('title') 

date = item.findtext('pubDate' ) 

link = item. findtext('link') 


print 


(title) 
print 


(date) 
print 


(link) 
print 





如 果 运 行 上 面 的 脚本 ， 会 得 到 类 似 这 样 的 输 


Steve Holden: Python for Data Analysis 

Mon, 19 Nov 2012 02:13:51 +0000 
http://holdenweb.blogspot.com/2012/11i/python-for-data-analysis.h 
Vasudev Ram: The Python Data model (for v2 and v3) 


Sun, 18 Nov 2012 22:06:47 +0000 
http://jugad2. blogspot .com/2012/11/the-python-data-model.html 
Python Diary: Been playing around with Object Databases 





Sun, 18 Nov 2012 20:40:29 +0000 

http://www. pythondiary.com/blog/Nov.18, 2012/been-...-object-data 
Vasudev Ram: Wakari, Scientific Python in the cloud 

Sun, 18 Nov 2012 20:19:41 +0000 

http://jugad2. blogspot .com/2012/11/wakari-scientific-python-in-c 
Jesse Jiryu Davis: Toro: synchronization primitives for Tornado 
Sun, 18 Nov 2012 20:17:49 +0000 
http://feedproxy.google.com/~r/EmptysquarePython/~3/_DOZT2Kd0hQ/ 
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6.3.3 ”讨论 


在 许多 应 用 中 ， 同 XML 编码 的 数据 打交道 是 很 
意见 的 事情 。 这 不 仅 是 因为 XML 作 为 一 种 数据 交换 
格式 在 互联 网 中 使 用 广泛 ， 而 且 XML 还 是 用 来 保存 
应 用 程序 数据 《例如 文字 处 理 、 音 乐 库 等 ) 的 利用 
本 市 后 面 的 讨论 假设 读者 已 经 熟悉 XML 的 基 


在 许多 情况 下 ，XML 如 果 只 是 简单 地 用 来 保存 
数据 ， 那 么 文档 结构 束 是 紧 读 而 直接 的 。 例 如 ， 上 
面 示例 中 的 RSS 订 阅 源 看 起 来 类 似 于 如 下 的 XML 文 
档 : 

















<?xml version="1.0"?> 
<rss version="2.0" xmins:dc="http://purl.org/dc/elements/1.1/"> 
<channel> 

<title>Planet Python</title> 


<link>http://planet.python.org/</link> 
<language>en</language> 
<description>Planet Python - http://planet.python.org/</descri 
<item> 
<title>Steve Holden: Python for Data Analysis</title> 
<guid>http://holdenweb.blogspot.com/...-data-analysis.html 
<link>http://holdenweb.blogspot.com/...-data-analysis.html 
<description>...</description> 
<pubDate>Mon, 19 Nov 2012 02:13:51 +0000</pubDate> 
</item> 
<item> 
<title>Vasudev Ram: The Python Data model (for v2 and v3)</t 
<guid>http://jugad2.blogspot.com/...-data-model.html</guid> 
<link>http://jugad2.blogspot.com/...-data-model.html</link> 
<description>...</description> 
<pubDate>Sun, 18 Nov 2012 22:06:47 +0000</pubDate> 
</item> 
<item> 
<title>Python Diary: Been playing around with Object Databas 
<guid>http://www.pythondiary.com/...-object-databases.html</ 
<link>http://www.pythondiary.com/...-object-databases.html</ 
<description>...</description> 
<pubDate>Sun, 18 Nov 2012 20:40:29 +0000</pubDate> 
</item> 


</channel> 
</rss> 





xml.etree.ElementTree.parse() K 2CK 4S XML 
文档 解析 为 一 个 文档 对 象 。 之 后 ， 残 可 以 利用 





find()、iterfind() 以 及 findtext() 方 法 查询 特定 的 XML 
元 素 。 这 些 函 数 的 参数 就 是 特定 的 标签 名 称 ， 比 如 
channel/item 或 者 title。 


当 指 定 标 签 时 ， 需 要 整体 考虑 文档 的 结构 。 
M o 




















同样 地 ， 提 供给 每 个 操作 的 标签 名 也 是 相对 于 起 始 
元 素 的 。 在 示例 代码 中 ， 对 
doc.iterfind('channel/item") 的 调用 会 查找 所 有 

在 “channel” 元 素 之 下 的 “item” 元 素 。doc 代 表 着 文档 
的 顶层 《顶层 “rss” 元 素 ) 。 之 后 对 item.findtext() 的 
Val FA EAA HT Fk BI AY “item” 70 HOKE 


每 个 由 ElementTree 模 块 所 表示 的 元 素 都 有 一 些 
重要 的 属性 和 方法 ， 它 们 对 解析 操作 十 分 有 用 。tag 
属性 中 包含 了 标签 的 名 称 ，text 属 性 中 包含 有 附着 
的 文本 ， 而 get0) 方 法 可 以 用 来 提取 出 属性 (如 果 有 
的 话 ) 。 示 例如 下 : 














>>> doc 

<xml.etree.ElementTree.ElementTree object at 0x101339510> 
>>> e = doc.find('channel/title' ) 

>>> e 

<Element 'title' at 0x10135b310> 


"Planet Python' 
>>> e.get('some_attribute' ) 
>>> 





应 该 要 指出 的 是 xml.etree.ElementTree 并 不 是 解 
析 义 ML 的 唯一 选择 。 对 于 更 加 高 级 的 应 用 ， 应 该 考 
虑 使 用 Ixml。1lxml 采 用 的 编程 接口 和 ElementTree 一 
样 ， 因 此 本 节 中 展示 的 示例 能 够 以 同样 的 方式 用 




















lxml 实 现 。 只 需要 将 第 一 个 导入 语句 修改 为 from 
IxmLetree import parse 即 可 。lxml 完 全 兼容 于 XML 
标准 ， 这 为 我 们 提供 了 极 大 的 好 处 。 此 外 ，Ixml 运 
行 起 来 非 芝 快速， 还 提供 验证 、XSLT 以 及 XPath 这 
样 的 功能 文 持 。 





6.4 ”以 增 量 方 式 解析 大 型 XML 文 
人 


6.4.1 问题 





我 们 需要 从 一 个 大 型 的 XML 文档 中 提取 出 数 
据 ， 而 且 对 内 存 的 使 用 要 尽 可 能 少 。 


6.4.2 ”解决 方案 


任何 时 候 ， 当 要 面 对 以 增 量 方式 处 理 数 据 的 问 
题 时 ， 都 应 该 考虑 使 用 迭代 器 和 生成 器 。 下 面 是 一 
个 简单 的 函数 ， 可 用 来 以 增 量 方式 处 理 大 型 的 XML 
文件 ， 它 只 用 到 了 很 少量 的 内 存 : 











from xml.etree.ElementTree import 


iterparse 
def 


parse_and_remove(filename, path): 
path_parts = path.split('/') 
doc = iterparse(filename, ('start', 'end')) 
# Skip the root element 


next(doc ) 
tag_stack = [] 
elem_stack = [] 
for 


event, elem in 


doc: 
if 
event == 'start': 
tag_stack.append(elem.tag) 
elem_stack.append(elem) 
elif 


event == 'end': 
if 


tag_stack == path_parts: 
yield 


elem 
elem_stack[-2].remove(elem) 
try 


tag_stack.pop( ) 
elem_stack.pop( ) 
except IndexError 


pass 


[L SCR 


要 测试 这 个 函数 ， 只 需要 找 一 个 大 型 的 XML 文 
件 来 配合 测试 即 可 。 这 种 大 型 的 XML 文 件 和 常常 可 以 
在 政府 以 及 数据 公开 的 网 站 上 找到 。 比 如 ， 
载 芝 加 哥 的 坑 洞 数据 库 XML 。 在 写作 本 书 时 ， 这 
下 载 文 件 中 有 超过 100000 行 的 数据 ， 它们 按照 如 下 
的 方式 编码 : 


<response> 
<row> 
<row ...> 
<creation_date>2012-11-18T00:00:00</creation_date> 
<status>Completed</status> 
<completion_date>2012-11-18T00:00:00</completion_date> 
<service_request_number>12-01906549</service_request_numbe 
<type_of_service_request>Pot Hole in Street</type_of_servi 
<current_activity>Final Outcome</current_activity> 
<most_recent_action>CDOT Street Cut ... Outcome</most_rece 
<street_address>4714 S TALMAN AVE</street_address> 
<Z1p>60632</zip> 
<x_coordinate>1159494.68618856</x_coordinate> 
<y_coordinate>1873313 .83503384</y_coordinate> 
<ward>14</ward> 


<police_district>9</police_district> 
<community_area>58</community_area> 
<latitude>41.808090232127896</latitude> 
<longitude>-87 .69053684711305</longitude> 
<location latitude="41.808090232127896" 
longitude="-87.69053684711305" /> 


</row> 

<row ...> 
<creation_date>2012-11-18T00:00:00</creation_date> 
<status>Completed</status> 
<completion_date>2012-11-18T00:00:00</completion_date> 
<service_request_number>12-01906695</service_request_numbe 
<type_of_service_request>Pot Hole in Street</type_of_servi 
<current_activity>Final Outcome</current_activity> 
<most_recent_action>CDOT Street Cut ... Outcome</most_rece 





<street_address>3510 W NORTH AVE</street_address> 
<Z1ip>60647</zip> 
<x_coordinate>1152732.14127696</x_coordinate> 
<y_coordinate>1910409.38979075</y_coordinate> 
<ward>26</ward> 
<police_district>14</police_district> 
<community_area>23</community_area> 
<latitude>41.91002084292946</latitude> 
<longitude>-87 .71435952353961</longitude> 
<location latitude="41.91002084292946" 
longitude="-87.71435952353961" /> 
</row> 
</row> 
</response> 





假设 我 们 想 编写 一 个 脚本 来 根据 坑 洞 的 数量 对 
邮政 编码 (ZIP code) 进行 排序 。 可 以 编写 如 下 的 
代码 来 实现 : 





from xml.etree.ElementTree import 


parse 
from collections import 


Counter 

potholes_by_zip = Counter() 
doc = parse('potholes.xml1' ) 
for 


pothole in 


doc.iterfind('row/row' ): 
potholes_by_zip[pothole.findtext('zip')] += 1 
for 


Zipcode, num in 


potholes_by_zip.most_common(): 
print 


(zipcode, num) 
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件 都 读 取 到 内 存 中 后 再 做 解析 。 在 我 们 的 机 器 上 ， 
运行 这 个 脚本 需要 占据 450 MB 内 存 。 但 是 如 果 使 





用 下 面 这 份 代码 ， 程 序 只 做 了 微小 的 修改 : 





from collections import 


Counter 

potholes_by_zip = Counter() 

data = parse_and_remove('potholes.xml', 'row/row' ) 
for 


pothole in 


data: 
potholes_by_zip[pothole.findtext('zip')] += 1 
for 


Zipcode, num in 


potholes_by_zip,most_common( ) : 
print 


(zipcode, num) 





这 个 版 本 的 代码 运行 起 来 只 用 了 7 MB 内 存 
多 么 惊人 的 提升 啊 ! 


6.4.3 ”讨论 





本 节 中 的 示例 依赖 于 ElementTree 模 块 中 的 两 个 
核心 功能 。 首 先 ，iterparse() 方 法 允许 我 们 对 XML 
文档 做 增 量 式 的 处 理 。 要 使 用 它 ， 只 雷 提 供 文 件 名 
以 及 一 个 事件 列表 即 可 。 事 件 列表 由 1 个 或 多 个 
start/end，start-ns/end-ns 组 成 。iterparseO 创 建 出 的 
迭代 器 产生 出 形式 为 (event，elem) 的 元 组 ， 这 里 
的 event 是 列 出 的 事件 ， 而 elem 是 对 应 的 XML 元 
素 。 示 例如 下 : 





>>> data = iterparse('potholes.xml',('start', 'end')) 
>>> next(data) 

('start', <Element 'response' at 0x100771d60>) 

>>> next(data) 

('start', <Element 'row' at 0x100771e68>) 

>>> next(data) 

('start', <Element 'row' at 0x100771fc8>) 

>>> next(data) 

('start', <Element 'creation_date' at 0x100771f18>) 
>>> next(data) 

('end', <Element 'creation_date' at 0x100771f18>) 


>>> next(data) 

('start', <Element 'status' at 0x1006a7f18>) 
>>> next(data) 

('end', <Element 'status' at 0x1006a7f18>) 
>>> 





当 某 个 元 系 首 次 被 创建 但 是 还 没有 填 入 任何 其 
他 数据 时 《比如 子 元 素 ) ， 会 产生 start 事 件 ， 而 end 








事件 会 在 元 素 已 经 完成 时 产生 。 尽 管 没 有 在 本 节 示 
例 中 出 现 ，start-ns 和 end-ns 事 件 是 用 来 处 理 XML 命 
名 空间 声明 的 。 


在 这 个 示例 中 ，start 和 和 end 事件 是 用 来 管理 元 素 
和 标签 栈 的 。 这 里 的 栈 代 表 着 文档 结构 中 被 解析 的 
当前 层次 (current hierarchical) ， 同 时 也 用 来 判断 
元 素 是 否 匹 配 传递 给 parse_and_remove0O 函 数 的 请 求 
路 径 。 如 果 有 匹配 满足 ， 就 通过 yield 将 其 发 送 给 调 




















紧 跟 在 yield 之 后 的 语句 就 是 使 得 ElementTree 能 
够 高 效 利 用 内 存 的 关键 所 在 : 


elem_stack[-2].remove(elem) 


这 一 行 代码 使 得 之 前 通过 yield 产 生出 的 元 素 从 
它们 的 父 节 点 中 移 除 。 因 此 可 假设 其 再 也 没有 任何 





其 他 的 引用 存在 ， 因 此 该 元 素 被 销毁 进而 可 以 回收 
它 所 占用 的 内 存 。 


这 种 迭代 式 的 解析 以 及 对 节点 的 移 除 使 得 对 整 
个 文档 的 增 量 式 扫 摘 变 得 非常 局 效 。 在 任何 时 刻 都 
能 构造 出 一 棣 完整 的 文档 树 。 然 而 ， 我 们 仍然 可 以 
编写 代码 以 直接 的 方式 来 处 理 XML 数 据 。 


这 种 技术 的 主要 缺点 就 是 运行 时 的 性 能 。 当 进 
行 测试 时 ， 将 整个 文档 先 读 入 内 存 的 版 本 运行 起 来 
大 约 比 增 量 式 处 理 的 版 本 快 2 倍 。 但 是 在 内 存 的 使 
用 上 ， 先 读 入 内 存 的 版 本 占用 的 内 存量 是 增 量 式 处 
理 的 60 信 多。 因此 ， 如 末 内 存 使 用 量 是 更 加 需要 关 
注 的 因素 ， 那 么 显然 增 量 式 处 理 的 版 本 才 是 大 局 
家 。 



































6.5 ”将 字典 转换 为 XML 
6.5.1 问题 

我 们 想 将 Python 字 上 典 中 的 数据 转换 为 XML。 
6.5.2 FAIK 

尽管 xml.etree.ElementTree 库 通常 用 来 解析 


XML 文档 ， 但 它 同样 也 可 以 用 来 创建 XML 文档 。 
例如 ， 考 虑 下 面 这 个 函数 : 








from xml.etree.ElementTree import 


Element 
def 


dict_to_xml(tag, d): 


Turn a simple dict of key/value pairs into XML 


elem = Element(tag) 
for 


key, val in 


d.items(): 
child = Element(key) 
child.text = str(val) 
elem.append(child) 
return 


elem 








下 和 面 是 使 用 这 个 函数 的 示例 : 


>>> S 
>>> e 
>>> e 
<Element 'stock' at 0x1004b64c8> 
>>> 


{ 'name': 'GOOG', 'shares': 100, 'price':490.1 } 
dict_to_xml('stock', s) 





转换 的 结果 是 一 个 Element 实 例 。 对 于 IO 操作 
来 说 ， 可 以 利用 xml.etree.ElementTree 中 的 tostring() 
函数 将 其 转换 为 字 市 串 。 示 例如 下 : 


>>> from xml.etree.ElementTree import 


tostring 
>>> tostring(e) 
b'<stock><price>490.1</price><shares>100</shares><name>GOOG</nam 





>>> 





如 果 想 为 元 素 附 加 上 属性 ， 可 以 使 用 set0) 方 法 
实现 ; 


>>> e.set('_id', '1234') 

>>> tostring(e) 

b'<stock _id="1234"><price>490.1</price><shares>100</shares><name 
</stock>' 


>>> 








如 果 需 要 考虑 元 素 间 的 顺序 ， 可 以 创建 
OrderedDict (FFH) 来 取代 普通 的 字典 。 人 参见 
1.7 节 中 对 有 序 字 上 典 的 介绍 。 








6.5.3 ”讨论 


当 创 建 XML 时 ， 也 许 会 倾 问 于 只 使 用 字符 是 来 
完成 。 比如 : 














def 


dict_to_xml_str(tag, d): 


Turn a simple dict of key/value pairs into XML 


parts = ['<{}>'.format(tag) ] 
for 


key, val in 


d.items(): 


parts.append('<{0}>{1}</{0}>'.format(key, val) ) 
parts.append('</{}>'.format(tag) ) 
return 


'' join(parts) 








ET ON RRIF LEAT, ABA ie 
在 目 找 麻 烦 。 比 如 ， 如 条 字典 中 包含 有 特殊 字符 时 





让 让 天 





>>> d = { 'name' : '<spam>' } 
>>> # String creation 


>>> dict_to_xml_str('item',d) 
'"<item><name><spam></name></item>' 
>>> # Proper XML creation 


>>> e = dict_to_xml('item',d) 
>>> tostring(e) 
b'<item><name><spam></name></item>' 


>>> 





请 注意 在 上 面 这 个 示例 中 ， 字 符 < 和 > 分 别 被 
&dt; 和 &gt; 取 代 了 。 


下 面 的 提示 仅 供 参考 。 如 果 需 要 手工 对 这 些 字 


符 做 转 义 处 理 ， 可 以 使 用 xml.sax.saxutils 中 的 
escape() 和 unescape() 函 数 。 示 例如 下 : 





>>> from xml.sax.saxutils import 


escape, unescape 
>>> escape('<spam>' ) 
"<spam>' 


>>> unescape(_) 
"<spam>' 
>>> 








为 什么 说 创建 Element 实 例 要 比 使 用 字符 串 
好 ? 除了 可 以 产生 出 正确 的 输出 外 ， 其 他 的 原因 在 
于 这 样 可 以 更 加 方便 地 将 Element 实 例 组 合 在 一 
起 ， 创 建 出 更 大 的 XML 文 档 。 得 到 的 Element 实 例 
也 能 够 以 各 种 方式 进行 处 理 ， 完 全 不 必 担 心 解析 
XML 文本 方面 的 问题 。 最 重要 的 是 ， 我 们 能 够 站 在 





更 局 的 层面 上 对 数据 进行 各 种 处 理 ， 只 在 最 后 把 结 
末 作 为 字符 串 输 出 即 可 。 





6.6 解析、 修改 和 重 写 XML 
6.6.1 问题 


我 们 想 读 取 一 个 XML 文 档 ， 对 它 做 些 修改 后 再 
以 XML 的 方式 写 回 。 


6.6.2 ”解决 方案 


xml.etree.ElementTree 模 块 可 以 轻松 完成 这 样 的 
任务 。 从 本 质 上 来 说 ， 开 始 时 可 以 按照 通常 的 方式 
来 解析 文档 。 例 如 ， 假 设 有 一 个 名 为 pred.xml 的 文 
档 ， 它 看 起 来 是 这 样 的 : 














<?xml version="1.0"?> 
<stop> 


<id> 


14791</id> 


<nm> 


Clark & 


Balmoral</nm> 


<sri> 


<rt> 


22</rt> 


<d> 


North Bound</d> 


<dd> 


North Bound</dd> 


</sri> 


<cr> 


22</cr> 


<pre> 


<pt> 


5 MIN</pt> 


<fd> 


Howard</fd> 


<v> 


1378</v> 


<rn> 


22</rn> 


</pre> 


<pre> 


<pt> 


15 MIN</pt> 


<fd> 


Howard</fd> 


<v> 


1867</v> 


<rn> 


22</rn> 


</pre> 


</stop> 





下 面 的 示例 采用 ElementTree 来 读 取 这 个 文档 ， 
并 对 文档 的 结构 作出 修改 : 


>>> from xml.etree.ElementTree import 





parse, Element 

>>> doc = parse('pred.xm1' ) 

>>> root = doc.getroot() 

>>> root 

<Element 'stop' at 0x100770cb0> 
>>> # Remove a few elements 


>>> root.remove(root.find('sri')) 
>>> root.remove(root.find('cr')) 
>>> # Insert a new element after <nm>...</nm> 


>>> root.getchildren().index(root.find('nm') ) 


1 
>>> e = Element('spam' ) 
>>> e. text = 'This is a test' 


>>> root.insert(2, e) 
>>> # Write back to a file 


>>> doc.write('newpred.xml', xml_declaration=True) 
>>> 








这 些 操作 的 结 末 产生 了 一 个 新 的 XML 文档 ， 看 
起 来 是 这 样 的 : 


<?xml version='1.0' encoding='us-ascii'?> 
<stop> 





<id> 


14791</id> 


<nm> 


Clark & 


Balmoral</nm> 


<spam> 


This is a test</spam><pre> 


<pt> 


5 MIN</pt> 


<fd> 


Howard</fd> 


<v> 


1378</v> 


<rn> 


22</rn> 


</pre> 


<pre> 


<pt> 


15 MIN</pt> 


<fd> 


Howard</fd> 


<v> 


1867</v> 


<rn> 


22</rn> 


</pre> 


</stop> 





6.6.3 ”讨论 


修改 XML 文档 的 结构 是 简单 直接 的 ， 但 是 必须 
记 住 所 有 的 修改 主要 是 对 父 元 素 进行 的 ， 我 们 把 它 
当做 是 一 个 列表 一 样 对 符 。 比 如 说 ， 如 果 移 除 某 个 
元 素 ， 那 么 就 利用 它 的 直接 父 节点 的 remove( 方 法 
完成 。 如 果 插 入 或 添加 新 的 元 素 ， 同 样 要 使 用 父 节 
点 的 insert() 和 append0 方 法 来 完成 。 这 些 元 素 也 可 
以 使 用 索引 和 切片 操作 来 进行 操控 ， 比 如 element[i 
或 者 是 element[i:j]。 


如 果 需 要 创建 新 的 元 际 ， 可 以 使 用 Element 类 


来 完成 ， 我 们 本 节 给 出 的 示例 中 已经 这 么 做 了 。 这 
在 6.5 节 中 有 更 进一步 的 描述 。 











6.7 ”用 命名 空间 来 解析 XML 文档 


6.7.1 问题 





我 们 要 解析 一 个 XML 文 档 ， 但 是 需要 使 用 
XML 命 名 空间 来 完成 。 





6.7.2 ”解雇 方案 
考虑 使 用 了 命名 空间 的 如 下 XML 文 档 : 





<?xml version="1.0" encoding="utf-8"?> 
<top> 


<author> 


David Beazley</author> 


<content> 


<html 


xmlns="http://www.w3.org/1999/xhtml"> 


<head> 


<title> 


Hello World</title> 


</head> 


<body> 


<hi> 


Hello World!</h1i> 


</body> 


</html> 


</content> 


</top> 





如 果 解 析 这 个 文档 并 尝试 执行 普通 的 查询 操 
作 ， 就 会 发 现 没 那么 容易 实现 ， 因 为 所 有 的 东西 者 
变 得 特别 宛 长 嗓 味 : 


>>> # Some queries that work 


>>> doc.findtext('author' ) 

"David Beazley' 

>>> doc.find('content' ) 

<Element 'content' at 0x100776ec0> 

>>> # A query involving a namespace (doesn't work) 


>>> doc.find('content/html' ) 
>>> # Works if fully qualified 


>>> doc.find('content/{http://www.w3.org/1999/xhtml}htm1' ) 
<Element '{http://www.w3.org/1999/xhtml}html' at 0x1007767e0> 
>>> # Doesn't work 


>>> doc.findtext('content/{http: //www.w3.org/1999/xhtml}html/heag 
>>> # Fully qualified 


>>> doc.findtext('content/{http://www.w3.org/1999/xhtml}htm1/' 


'{http://www.w3.org/1999/xhtml}head/{http://www.w3.org/1999/xhtm 
"Hello World' 
>>> 





通常 可 以 将 命名 空间 的 处 理 包 装 到 一 个 通用 的 
关中 ， 这 样 可 以 省 去 一 些 采 烦 : 








class XMLNamespaces 


def 


__init__(self, **kwargs): 


self.namespaces = {} 
for 


name, uri in 


kwargs.items(): 


self.register(name, uri) 
def 


register(self, name, uri): 


self.namespaces[name] = '{'+uri+'}' 
def 


_Ccall (self, path): 
return 


path.format_map(self.namespaces) 


一 


要 使 用 这 个 类 ， 可 以 护照 下 面 的 方式 进行 


>>> ns = XMLNamespaces(html='http://www.w3.org/1999/xhtm1' ) 

>>> doc.find(ns('content/{html}html' ) ) 

<Element '{http://www.w3.org/1999/xhtml}html' at 0x1007767e0> 
>>> doc.findtext(ns('content/{html}html/{html}head/{html}title' ) 


"Hello World' 
>>> 





6.7.3 ”讨论 


对 包含 有 命名 空 z 间 的 XML 文档 进行 解析 会 非常 
党 琐 。XMLNamespaces 类 的 功能 只 是 用 来 稍微 简化 
一 下 这 个 过 程 ， 它 允许 在 后 序 的 操作 中 使 用 缩短 的 
命名 空间 名 称 ， 而 不 必 去 使 用 完全 限定 的 URI。 


不 竺 的 是 ， 在 基本 的 ElementTree 解 析 融 中 个 存 
在 什么 机 制 能 获得 有 关 命 名 空 zs 间 的 进一步 信息 。 但 
是 如 果 愿 意 ei (38 Hiterparse() PA ZHI TE , 还 是 可 以 获得 
一 些 有 关 正 在 处 理 的 命名 空间 范围 的 信息 。 示 例如 
下 : 














>>> from xml.etree.ElementTree import 


iterparse 


>>> for 
evt, elem in 


iterparse('ns2.xml', ('end', 'start-ns', ‘end-ns')): 
print 


(evt, elem) 


end <Element ‘author' at 0x10110de10> 

start-ns ('', 'http://www.w3.org/1999/xhtml1' ) 

end <Element '{http://www.w3.org/1999/xhtml}title' at 0x1011131b 
end <Element '{http://www.w3.org/1999/xhtml}head' at 0x1011130a8 
end <Element '{http://www.w3.org/1999/xhtml}h1' at 0x101113310> 
end <Element '{http://www.w3.org/1999/xhtml}body' at 0x101113260 
end <Element '{http://www.w3.org/1999/xhtml}html' at 0x10110df70 
end-ns None 

end <Element 'content' at 0x10110de68> 

end <Element 'top' at 0x10110dd60> 

>>> elem # This is the topmost element 


<Element 'top' at 0x10110dd60> 
>>> 








最 后 要 提 到 的 是 ， 如 果 正 在 解析 的 文本 用 到 了 








除 命 名 空间 之 外 的 其 他 高 级 XML 特性 ， 那 么 最 好 还 
是 使 用 lxml 库 。 比 方 襄 ，lxml 对 文档 的 DTD 验 证 、 
更 加 完整 的 XPath 支 持 和 其 他 的 高 级 XML 特 性 提供 
了 更 好 的 文 持 。 本 节 提 到 的 技术 只 是 为 解析 操作 做 





了 一 点 修改 ， 使 得 这 个 过 程 能 够 稍微 简单 一 些 。 


6.8” 同 天 系 型 数据 库 进 行 交 互 
6.8.1 问题 


我 们 需要 选择 、 插 入 或 者 删除 关系 型 数据 库 中 
的 行 数 据 。 


6.8.2 ”解决 方案 


在 Python 中 ， 表 达 行 数据 的 标准 方式 是 采用 元 
组 序列 。 例 如 : 


stocks = [ 


('GOOG', 100, 490.1), 
('AAPL', 50, 545.75), 


('FB', 150, 7.45), 
('HPQ', 75, 33.2), 





当 数 据 以 这 种 形式 呈现 时 ， 通 过 Python 标准 的 
数据 库 API (在 PEP 249 中 描述 ) 来 同 关 系 型 数据 库 
进行 交互 相对 来 说 束 显 得 很 直接 了。 该 API 的 要 点 
就 是 数据 库 上 的 所 有 操作 都 通过 SQL 查 询 来 实现 。 








每 一 行 输入 或 输出 数据 都 由 一 个 元 组 来 表示 。 


为 了 说 明 ， 我 们 可 以 使 用 Python 自 带 的 sqlite3 
模块 。 如 果 正 在 使 用 一 个 不 同 的 数据 库 〈 如 
MySQL、Postgres 或 者 ODBC) ， 就 需要 安装 一 个 
第 三 方 的 模块 来 支持 。 但 是 ， 底 层 的 编程 接口 即使 
不 完全 相同 的 话 也 几乎 是 一 致 的 。 


第 一 步 是 连接 数据 库 。 一 般 来 说 ， 要 调用 一 个 
connect() 函 数 ， 提 供 类 似 数 据 库 名 称 、 主 机 名 、 用 
户 名 、 密 但 这 样 的 参数 以 及 一 些 其 他 需要 的 细节 。 
示例 如 下 : 














>>> import sqlite3 


>>> db = sqlite3.connect('database.db' ) 


>>> 





要 操作 数据 的 话 ， 下 一 步 束 要 创建 一 个 游标 
(cursor) 。 一 旦 有 了 游标 ， 就 可 以 开始 执行 SQL 
查询 了 。 示 例如 下 : 


>>> c = db.cursor() 
>>> c.execute('create table portfolio (symbol text, shares integ 
<sqlite3.Cursor object at 0x10067a730> 


>>> db.commit() 
>>> 





pO 


加 要 在 数据 中 插入 行 序列 ， 可 以 采用 这 样 的 语 


>>> c.executemany('insert into portfolio values (?,?,?)', stocks 
<sqlite3.Cursor object at 0x10067a730> 
>>> db.commit() 


>>> 








BRITA WERE, HEH PRE ad: 


db.execute('select * from portfolio'): 
print 


('GOOG', 100, 490.1) 
('AAPL', 50, 545.75) 
('FB', 150, 7.45) 
('HPQ', 75, 33.2) 
>>> 








如 朱 想 执行 的 查询 操作 需要 接受 用 户 提供 的 输 
入 参数 ， 请 确保 用 ? 陋 开 参数 ， 瓯 像 下 面 的 示例 这 
样 : 





>>> min_price = 100 
>>> for 


row in 


db.execute('select * from portfolio where price >= ?', 
(min_price, )): 
print 


('GOOG', 100, 490.1) 
('AAPL', 50, 545.75) 
>>> 





6.8.3 ”讨论 








从 较 低 的 层次 来 看 ， 同 数据 库 的 交互 其 实 是 一 
件 非常 直截了当 的 事 。 只 要 组 成 SQL 语句 然后 将 它 
们 传 给 的 层 的 模块 束 可 以 更 新 数据 库 或 者 取出 数据 
了 。 尽 管 如 此 ， 这 里 还 是 有 一 些 比较 环 手 的 细节 问 
题 需 要 针对 每 种 情况 逐 项 考虑 。 








其 中 一 个 比较 复杂 的 问题 融 是 将 数据 库 中 的 数 

据 映 射 到 Python 的 类 型 中 。 对 于 像 日 期 这 样 的 条 
上 月， 最 常见 的 是 使 用 datetime 模 块 中 的 datetime 实 
例 ， 或 者 也 可 能 是 time 模 块 中 用 到 的 系统 时 间 惟 

(system timestamps) 。 对 于 数值 型 的 数据 ， 尤 其 
是 涉及 小 数 的 金融 数据 ， 这 些 数字 可 以 用 decimal 模 
HRe Decimal KARER. PEWNE. MYK 
WRR A ANH E Ja mAAR Xl], EE 
须 去 阅读 相关 的 文档 。 


另 一 个 极其 重要 的 问题 是 需要 考虑 组 成 SQL 语 
句 的 字符 串 。 我 们 绝对 不 应 该 用 Python 的 字符 串 格 
式 化 操作 符 〈 即 %) 或 者 .formatO 方 法 来 创建 这 种 
字符 串 。 如 果 给 这 样 的 格式 化 操作 符 提 供 的 值 是 来 
目 于 用 户 的 输入 ， 那 么 这 残 等 于 将 你 的 程序 敞开 大 
门 迎接 SQL 注入 攻击 《参见 http:/Xxkcd.com/327 ) 。 
在 查询 操作 中 ， 特 殊 的 ?通配符 会 指示 数据 库 后 端 
局 用 目 己 的 字符 串 蔡 换 机 制 ， 这 样 才能 做 到 安全 

《希望 如 此 ) 。 


可 翡 的 是 ， 数 据 库 后 端 对 通配符 的 支持 并 不 一 
致 。 有 许多 模块 采用 的 是 ?或 %s， 而 其 他 一 些 可 能 
会 使 用 不 同 的 符号 ， 比 如 用 :0 或 者 :1 来 代表 参数 。 
这 里 再 次 说 明 ， 必 须 查 阅 正 在 使 用 的 数据 库 模 块 的 
文档 资料 。 数 据 库 模 块 的 paramstyle 属 性 中 也 包含 
有 关于 引用 样式 的 相关 信息。 



































对 于 人 简 蛙 地 三 健将 数据 从 数据 库 表 项 中 取出 和 
和 输入， 使 用 数据 库 API 通 第 足够 。 如 有 果 要 处 理 更 
加 复杂 的 任务 ， 那 么 使 用 一 种 更 高 层次 的 接口 就 显 
得 很 有 意义 了 ， 比 如 那些 提供 有 对 象 天 系 映射 组 件 

(object-relational mapper, ORM) 的 接口 。 像 

SQLAlchemy Chttp://www.sqlalchemy.org ) 这 样 的 
库 允 许 数据 库 表 项 以 Python 类 的 形式 来 描述 ， 在 执 
行 数 据 库 操作 时 可 隐藏 大 部 分 底层 的 SQL 。 





6.9 ”编码 和 解码 十 六 进 制 数 字 
6.9.1 问题 


我 们 需要 将 十 六 进 制 数组 成 的 字符 串 解码 为 字 
节 流 ， 或 者 将 字 节 流 编码 为 十 六 进 制 数 。 





6.9.2 解决 方案 


如 有 末 需 要 编码 或 解 公 由 十 六 进 制 数组 成 的 原始 
字符 串 ， 可 以 使 用 binascii 模 块 。 示 例如 下 : 





>>> # Initial byte string 


>>> s = b'hello' 
>>> # Encode as hex 


>>> import binascii 


>>> h = binascii.b2a_hex(s) 
>>> h 

b'68656c6c6F' 

>>> # Decode back to bytes 


>>> binascii.a2b_hex(h) 


b'hello' 
>>> 


同样 的 功能 也 可 以 在 base64 模 块 中 找到 。 示 例 
如 下 : 


>>> import base64 


>>> h = base64.b16encode(s) 
>>> h 
b'68656C6C6F ' 


>>> base64.b16decode(h) 
b'hello' 
>>> 





6.9.3 ”讨论 


对 于 大 部 分 情况 而 言 ， 采 用 上 面 给 出 的 函数 对 
十 六 进 制 数 进行 转换 都 是 简单 直接 的 。 这 两 种 技术 
的 主要 区 别 在 于 大 写 转 换 。base64.b16decode() 和 
base64.b16encode() 疯 数 只 能 对 大 写 形式 的 十 六 进 制 
数 进 行 操作 ， 而 binascii 模 块 能 够 处 理 任意 一 种 情 
Dlo 


此 外 还 需要 重点 近 到 的 是 编码 函数 产生 的 输出 
总 和 是 字 节 第。 如 条 要 将 其 强制 转换 为 Unicode 输 








ce 
可 
a 
: 


增加 一 些 额外 的 解码 操作 。 示 例如 


>>> h = base64.b16encode(s) 
>>> print 


(h) 
b'68656C6C6F' 
>>> print 


(h.decode('ascii')) 
68656C6C6F 
>>> 





当 解 码 十 六 进 制 数 时 ，bl6decode() 和 a2b_hex() 
国 数 可 接受 字 节 串 或 Unicode 字 符 串 作为 输入 。 但 
是 ， 这 些 字 符 串 中 必须 只 能 包含 ASCII 编 码 的 十 六 
进 制 数 字 。 











6.10 Base64 编 码 和 解码 


6.10.1 问题 





我 们 需要 采用 Base64 编 码 来 对 二 进 制 数据 做 编 
码 解 码 操作 。 


6.10.2 解决 方案 
base64 模 块 中 有 两 个 函数- 一 —b64encode() 和 


b64decode() 它们 正 是 我 们 所 需要 的 。 示 例如 
下 : 








>>> # Some byte data 


>>> S = b'hello' 
>>> import base64 


>>> # Encode as Base64 


>>> a = base64.b64encode(s) 
>>> a 

b'aGVsbG8=' 

>>> # Decode from Base64 


>>> base64.b64decode(a) 
b'hello' 
>>> 





6.10.3 ”讨论 





Base644n 04 K REH EA ee ee EE, keun 
字 节 串 和 字 贡 数组。 此外， 编码 过 程 的 输出 总 是 一 
个 字 节 串 。 如 果 将 Base64 编 码 的 数据 同 Unicode 文 
本 混在 一 起 ， 那 么 可 能 需要 执行 一 个 额外 的 解码 步 
TR ANY FP 


>>> a = base64.b64encode(s).decode( 'ascii' ) 
>>> a 


"aGVsbG8=' 


>>> 
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字符 串 都 可 以 作为 输入 。 但 是 ，Unicode 字 符 串 中 
只 能 包含 ASCII 字 符 才 行 。 


6.11 读 写 和 二进制 结构 的 数组 
6.11.1 问题 


我 们 想 将 数据 编 公 为 统一 结构 的 二 进 制 数 组 ， 
然后 将 这 文 些 数据 读 写 到 Python 元 组 中 去 。 


6.11.2 解决 方案 


要 同 二 进 制 数 据 打交道 的 话 ， 我 们 可 以 使 用 
struct 模 块 。 下 面 的 示例 将 一 列 Python 元 组 写 入 到 一 
个 二 进 制 文 件 中 ， 通 过 struct 模 块 将 每 个 元 组 编码 为 
一 个 结构 。 














from struct import 


Struct 
def 


write_records(records, format, f): 


Write a sequence of tuples to a binary file of structures. 


record_struct = Struct(format) 
for 


records: 


f.write(record_struct.pack(*r)) 


# Example 


if 


—__name_— == ' main __': 


records = [ (1, 2.3, 4.5), 


(6, 7.8, 9.0), 


(12, 13.4, 56.7) ] 


with 


open('data.b', 'wb') as 


write_records(records, '<idd', f) 








如 果 要 将 这 个 文件 重新 读 取 为 一 列 Python 元 组 
的 话 ， 有 好 几 种 方法 可 以 实现 。 弟 和 完 ， 如 果 打 算 按 
块 以 增 量 式 的 方式 读 取 文 件 的 话 ， 可 以 按照 下 面 的 
示例 来 实现 : 








from struct import 


read_records(format, f): 
record_struct = Struct(format) 
chunks = iter(lambda 


: f.read(record_struct.size), b'') 
return 


(record_struct.unpack(chunk) for 


chunk in 


chunks) 


# Example 


if 


_name == ' main __': 
with 


open('data.b', 'rb') as 


rec in 


read_records('<idd', f): 
# Process rec 








如 朱 只 想 用 一 个 read0 调 用 将 文件 全 部 该 取 到 





一 个 字 节 吝 中 ， 然 后 再 一 其 一 其 的 做 转换 ， 那 么 可 
以 编写 如 下 的 代码 : 





from struct Import 


Struct 
def 


unpack_records(format, data): 
record_struct = Struct(format) 
return 


(record_struct.unpack_from(data, offset) 
for 


offset in 


range(0, len(data), record_struct.size) ) 
# Example 


if 


—__name_— == ' main __': 
with 


open('data.b', 'rb') as 


data = f.read() 
for 


rec in 


unpack_records('<idd', data): 
# Process rec 


在 这 两 种 情况 下 得 到 的 结果 都 是 一 个 可 和 迭代 对 
象 ， 它 能 够 产生 出 之 前 保存 在 文件 中 的 那些 元 组 。 








6.11.3 ”讨论 


对 于 那些 必须 对 二 进 制 数据 编码 和 解码 的 程 
序 ， 我 们 和 常会 用 到 struct 模 块 。 要 定义 一 个 新 的 结 
构 ， 只 要 简单 地 创建 一 个 Struct 实 例 即 可 : 





# Little endian 32-bit integer, two double precision floats 


record_struct = Struct('<idd' ) 





结构 总 是 通过 一 组 结构 化 代码 来 定义 ， 比 如 
iod, f CA Python 
档 http://docs.python.org/3/library/struct.html ) 。 这 
些 代 码 同 特定 的 三 进 制 数据 相对 应 ， 比 如 32 位 整 
数 、64 位 浮 点 数 、32 位 浮 点 数 等 。 而 第 一 个 字符 < 





指定 了 字 节 序 。 在 这 个 例子 中 表示 为 小 端 序 "。 将 
字符 修改 为 > 就 表示 为 大 端 序 ， 或 者 用 ! 来 表示 网 络 
字 节 序 。 


得 到 的 Struct 实 例 有 着 多 种 属性 和 方法 ， 它 们 
可 用 来 操纵 那 种 类 型 的 结构 。size 属 性 包含 了 以 字 
节 为 单位 的 结构 体 大 小 ， 这 对 于 IO 操作 来 说 是 很 
有 用 的 。packO0 和 unpackO0) 方 法 是 用 来 打包 和 解 包 数 
tat). IRAU T: 


























>>> from struct import 


Struct 

>>> record_struct = Struct('<idd') 

>>> record_struct.size 

20 

>>> record_struct.pack(1, 2.0, 3.0) 
b'\x01\x00\xOO0\xXOO\xXOO\XOO\xXOO\XOO\XOO\xOO\xXO0@\xOO\xOO\xXO0\xO0\ 


>>> record_struct.unpack(_) 
(1, 2.0, 3.0) 
>>> 





有 时 候 我 们 会 发 现 pack0 和 unpackO 会 以 模块 级 
K% (module-level functions) 的 形式 调用 ， 束 像 下 
面 的 示例 这 样 : 


>>> import struct 


>>> struct.pack('<idd', 1, 2.0, 3.0) 
b'\xO1\xO0\x00\x00\xOO\xX00\xOO0\xXOO\xXO00\xOO\xXO0@\xOO\xXO00\x00\xO0\ 
>>> struct.unpack('<idd', _) 

(1, 2.0, 3.0) 

>>> 





这 么 做 行 的 通 ， 但 是 比 起 创建 一 个 单独 的 











Struct 实 例 来 说 还 是 显得 不 那么 优雅 ， 尤 其 是 如 果 
相同 的 结构 会 在 代码 中 多 处 出 现时 。 通 过 创建 一 个 
Struct 实 例 ， 我 们 只 用 指定 一 次 格式 化 代码 ， 所 有 
有 用 的 操作 都 被 漂 膨 地 归 组 到 了 一 起 (通过 实例 方 
法 来 调用 ) 。 如 果 和 需要 同 结构 打交道 的 话 ， 这 么 做 
肯定 会 使 得 代码 更 容易 维护 (因为 只 需要 修改 一 处 
Bry) 。 


用 来 谈 取 二 进 制 结构 的 代码 中 涉及 一 些 有 趣 而 
且 优 雅 的 编程 惯用 法 Cprogramming idioms) 。 在 
pki #tread_records()#, RA JHitero REE — MAK 
a (ERR E A EAD AGE 5.8) 。 这 
ANTE ak HE Vd FA TS Pe BEY id Fo BR 
(EN, lambda: f.read(record_struct.size)) 直到 它 返 
回 一 个 指定 值 为 止 〈 即 ，b") , ERARI 
束 。 示 例如 下 : 























>>> f = open('data.b', 'rb') 
>>> chunks = iter(lambda 


: f.read(20), b'') 
>>> chunks 


<callable_iterator object at 0x10069e6d0> 
>>> for 


chk in 


chunks: 
print 


(chk) 


b'\x01\x00\xOO\xOOFFFFFF\xO2@\ xOO\xOO\xOO\xXOO\xOO\xXOO\xX12@' 
b'\x06\x00\x900\xX00333333\x1F@\xOO\x00\xOO\xOO\xOO\xO0"@' 


b'\xOc\xOO\xOO\xOO\xcd\xcc\xcc\xcc\xcc\xcc*@\x9a\x99\X99\X9I\X99 
>>> 
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许 我 们 通过 一 个 生成 器 表达 式 来 创建 records 记 录 ， 





就 像 解 决 方案 中 展示 的 那样 。 如 末 不 采用 这 种 方 
式 ， 那 么 代码 看 起 来 就 会 像 这 样 : 





def 


read_records(format, f): 
record_struct = Struct(format) 
while 


True: 


chk = f.read(record_struct.size) 
if 


chk == b'': 
break 


yield 


record_struct.unpack(chk) 
return 


records 





在 函数 unpack_recordsO0 中 我 们 采用 了 另 一 种 方 
法 。 这 里 使 用 的 unpack_from0) 方 法 对 于 从 大 型 的 二 
进 制 数 组 中 提取 出 二 进 制 数据 是 非常 有 用 的 ， 因 为 
它 不 会 创建 任何 临时 对 象 或 者 执行 内 存 拷贝 动作 。 





我 们 只 雷 提 供 一 个 字 厄 串 〈 或 者 任意 的 数组 ) ， 再 
加 上 一 个 字 市 偏 移 量 ， 它 就 能 直接 从 那个 位 置 上 将 
字段 解 包 出 来 。 

如 果 用 的 是 unpack0O 而 不 是 unpack_from()， 那 
么 需要 修改 代码 ， 创 建 许多 小 的 切片 对 象 并 且 还 要 
计算 偏 移 量 。 示 例如 下 : 





def 


unpack_records(format, data): 
record_struct = Struct(format) 
return 


(record_struct.unpack(data[offset:offset + record_struct.size] ) 
for 


offset in 


range(0, len(data), record_struct.size) ) 








这 个 版 本 的 实现 除了 读 取 数据 变 得 更 加 复杂 之 
外 ， 还 需要 完成 许多 工作 ， 因 为 它 得 计算 很 多 偏 移 
量 ， 找 贝 数据 ， 创 建 小 的 切 厂 对 象 。 如 果 打 算 从 已 
读 取 的 大 型 字 节 串 中 解 包 出 许多 结构 的 话 ， 那 么 
unpack_from0O) 是 更 加 优雅 的 方案 。 


我 们 可 能 会 想 在 解 包 记录 时 利用 collections 模 
块 中 的 namedtuple 对 象 。 这 么 做 允许 我 们 在 返回 的 
元 组 上 设 定 属性 名 。 示 例如 下 : 








from collections import 


namedtuple 
Record = namedtuple('Record', ['kind','x','y']) 
with 


open('data.p', 'rb') as 


records = (Record(*r) for 


read_records('<idd', f)) 
for 








如 果 正 在 编写 一 个 需要 同 大 量 的 二 进 制 数据 打 
交道 的 程序 ， 最 好 使 用 像 numpy 这 样 的 库 。 比 如 ， 
与 其 将 二 进 制 数 据 读 取 到 元 组 列表 中 ， 不 如 直接 将 
数据 谈 入 到 结构 化 的 数组 中 ， 惑 像 这 样 : 


>>> import numpy as np 





>>> f = open('data.b', 'rb') 

>>> records = np.fromfile(f, dtype='<i,<d,<d') 

>>> records 

array([(1, 2.3, 4.5), (6, 7.8, 9.0), (12, 13.4, 56.7)], 
dtype=[('fo', '<i4'), ('fa', '<f8'), ('f2', '<f8')]) 


>>> records[0] 
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种 已 知 的 文件 结构 中 读 取 二 进 制 数 据 (例如 图 像 格 
式 、shapefile、HDF5 等 ) ， 请 先 检 查 是 人 否 已 有 相应 
的 Python 模块 可 用 。 没 必 的 话 就 别 去 重复 友 明 轮子 
fxs 





6.12 读 取 欣 套 型 和 大 小 可 变 的 二 
进 制 结构 


6.12.1 问题 





我 们 需要 读 取 复杂 的 二 进 制 编码 数据 ， 这 些 数 
据 中 包含 有 一 系列 骸 僚 的 或 者 大 小 可 变 的 记录 。 这 
种 数据 包括 图 片 、 视 频 、 
shapefile (zh.wikipedia.org/zh-cn/Shapefile) 等 。 


6.12.2 ”解决 方案 


struct 模 块 可 用 来 编 公 和 解码 几乎 任何 类 型 的 二 
进 制 数 据 结构 。 为 了 说 明 本 节 中 提 到 的 这 种 数据 ， 
假设 我 们 有 一 个 用 Python 数 据 结构 表示 的 点 的 集 
合 ， 这 些 点 可 用 来 组 成 一 系列 的 三 角形 : 


.0, 2.5), (3.5, 4.0), (2.5, 1.5) ], 
.0, 1.2), (5.1, 3.0), (0.5, 7.5), (0.8, 9.0) ], 
, 6.3), (1.2, 0.5), (4.6, 9.2) ], 





现在 假设 要 将 这 份 数据 编码 为 一 个 二 进 制 文 


件 ， 这 个 文件 的 文件 头 可 以 表示 为 如 下 的 形式 ; 




















崇 跟 在 这 个 文件 涉 之 后 的 古 一 系列 的 三 角形 记 
录 ， 每 条 记录 编码 为 如 下 的 形式 : 
































要 写 入 这 个 文件 ， 可 以 使 用 如 下 的 Python 代 








但: 





import struct 


import itertools 


def 


write_polys(filename, polys): 
# Determine bounding box 


flattened = list(itertools.chain(*polys) ) 


min_x = min(x for 


x, y in 


flattened) 


max_x = max(x for 


x, y in 


flattened) 


min_y = min(y for 


x, y in 


flattened) 


max_y = max(y for 


x, y in 


flattened) 
with 


open(filename, 'wb') as 


f.write(struct.pack('<iddddi', 


0x1234, 


min_x, min_y, 


max_x, max_y, 


len(polys))) 


size = len(poly) * struct.calcsize('<dd' ) 


f.write(struct.pack('<i', size+4)) 


f.write(struct.pack('<dd', *pt)) 
# Call it with our polygon data 


write_polys('polys.bin', polys) 





要 将 结果 数据 回 读 的 话 ， 可 以 利用 








struct.unpack() 函 数 写 出 相似 的 代码 ， 只 是 在 编写 的 
时 候 将 所 执行 的 操作 反 转 即 可 〈 即 ， 用 unpackO 取 


代 之 前 的 pack0) 。 示 例如 下 : 





import struct 


def 


read_polys(filename) : 


with 


open(filename, 'rb') as 


# Read the header 


header = f.read(40) 


file_code, min_x, min_y, max_x, max_y, num_polys = \ 


struct.unpack('<iddddi', header) 


polys = [] 


for 


range(num_polys): 


pbytes, = struct.unpack('<i', f.read(4)) 


poly = [] 


for 


range(pbytes // 16): 


pt = struct.unpack('<dd', f.read(16) ) 


poly.append(pt) 


polys.append(poly) 


return 


polys 


| 


尽管 这 份 代码 能 够 工作 ， 但 是 其 中 混杂 了 一 些 
read 调 用 、 对 结构 的 解 包 以 及 其 他 一 些 细节 ， 因 此 
代码 比较 杂乱 。 如 果 用 这 样 的 代码 去 处 理 一 个 真正 
的 数据 文件 ， 很 快 束 会 变 的 更 加 混乱 。 因 此 ， 很 明 
显 需 要 寻求 其 他 的 解决 方案 来 简化 其 中 的 一 些 步 
ee eee eee ee 
问题 上 。 


在 本 节 剩 余 的 部 分 中 ， 我 们 将 逐步 构建 出 一 个 
用 来 解释 二 进 制 数据 的 高 级 解决 方案 ， 目 的 是 让 程 
序 员 提供 文件 格式 的 融 层 规范 ， 而 将 读 取 文 件 以 及 
解 包 所 有 数据 的 细 市 部 分 都 隐藏 起 来 。 先 提前 给 读 
者 预 葡 ， 本 市 后 面 的 代码 可 能 是 本 书 中 最 为 高 级 的 
示例 ， 运 用 了 多 种 面 同 对 象 编程 和 元 编程 的 技术 。 
请 确保 仔细 阅读 本 市 的 讨论 部 分 ， 并 且 雷 要 来 回 翻 
阅 其 他 章节 ， 区 叉 参 考 。 


首先 ， 当 我 们 读 取 二 进 制 数据 时 ， 文 件 中 包含 
有 文件 头 和 其 他 的 数据 结构 是 非常 背 见 的 。 尽 管 
struct 模 块 能 够 将 数据 解 包 为 元 组 ， 但 男 一 种 表示 这 
ae Sense 


ki 









































import struct 


class StructField 


Descriptor representing a simple structure field 


def 


__init__(self, format, offset): 


self.format = format 


self.offset = offset 


def 


__get__(self, instance, cls): 


if 


instance is 


None: 


return 


self 


else 


r = struct.unpack_from(self.format, 


instance._buffer, self.offset) 


return 


r[9] if 


len(r) == 1 else 


r 


class Structure 


def 


__init__(self, bytedata): 


self. buffer = memoryview(bytedata) 





代码 中 使 用 了 描述 符 (descriptor) 来 代表 每 一 
个 结构 字段 。 每 个 描述 符 中 都 包含 了 一 个 struct 模 块 
可 识别 的 格式 代码 〈format) 以 及 相对 于 底层 内 存 





缓冲 区 的 字 节 偏 移 (offset) 。 在 ”get_ (方法 中 ， 
通过 struct.unpack_from() 函 数 从 缓冲 区 中 解 包 出 对 
应 的 值 ， 这 样 就 不 用 创建 额外 的 切片 对 象 或 者 执行 
找 贝 动作 了 。 


Structure 类 只 是 用 作 基 类 ， 它 接受 一 些 字 节 数 
据 并 保存 在 由 StructField 描 述 符 所 使 用 的 底层 内 存 
缓冲 区 中 。 这 样 一 来 ， 在 Structure 类 中 用 到 的 
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次 的 类 ， 将 前 面 表格 中 用 来 描述 文件 格式 的 信息 都 
映射 到 类 的 定义 中 。 示 例如 下 : 





class PolyHeader 


(Structure): 


file_code = StructField('<i', 0) 


StructField('<d', 


StructField('<d', 


StructField('<d', 


StructField('<d', 


num_polys = StructField('<i', 36) 








下 面 的 示例 使 用 这 个 类 来 读 取 之 前 写 入 的 三 角 
形 数据 的 文件 头 : 





>>> f = open('polys.bin', 'rb') 
>>> phead = PolyHeader(f.read(40) ) 
>>> phead.file_code == 0x1234 
True 

>>> phead.min_x 

0.5 


>>> phead.min_y 

0.5 

>>> phead.max_x 

7.0 

>>> phead.max_y 

9.2 

>>> phead.num_polys 
3 


>>> 








这 么 做 挺 有 趣 的 ， 但 是 这 种 方法 还 存在 许多 问 





题 。 第 一 ， 尽 管 得 到 了 便利 的 类 接口 ， 但 代码 比较 
见长 ， 需 要 用 户 指 定 许 多 后 层 的 细节 〈 比 如， 重复 
使 用 StructField、 指 定 偏 移 量 等 ) 。 得 到 的 结 

中 ， 这 个 类 也 缺少 一 些 第 用 的 便捷 方法 ， 比 如 提供 
一 种 方式 来 计算 结构 的 总 大 小 。 


任何 时 候 当 面 对 这 种 过 于 见长 的 类 定义 时 ， 都 
应 该 考虑 使 用 类 装饰 器 (class decorator) 或 者 元 类 
(metaclass) 。 元 类 的 功能 之 一 是 它 可 用 来 填充 许 
多 底层 的 实现 细节 ， 把 这 份 负 担 从 用 户 身 上 拿 走 。 
举 个 例子 ， 考 虑 下 面 这 个 元 类 和 稍微 修改 过 的 


Structure 类 : 














class StructureMeta 


(type): 


Metaclass that automatically creates StructField descriptors 


def 


__init__(self, clsname, bases, clsdict): 


fields = getattr(self, '_fields_', []) 


byte_order = '' 
offset = 0 
for 


format, fieldname in 


fields: 


if 


format.startswith(('<','>','!','@')): 


byte_order = format[0] 


format 


format[1: ] 


format = byte_order + format 


setattr(self, fieldname, StructField(format, offset) ) 


offset += struct.calcsize(format) 


setattr(self, 'struct_size', offset) 


class Structure 


(metaclass=StructureMeta): 


def 


__init__(self, bytedata): 


self. _buffer = bytedata 


@classmethod 


def 


from_file(cls, f): 


return 


cls(f.read(cls.struct_size) ) 





8 FAIS ey Structure, FLEET DARE 
编写 结构 的 定义 了 : 





class PolyHeader 


(Structure): 


_fields_ = [ 


('<i', 'file_code'), 


('d', 'min_x'), 


('d', ‘min_y'), 


('d', 'max_x'), 


('d', ‘max_y'), 


('i', 'num_polys') 





可 以 看 到 ， 现 在 的 定义 要 简化 得 多 。 新 增 的 类 
方法 from_file() 也 使 得 从 文件 中 读 取 数据 变 得 更 加 





简单 ， 因 为 现在 不 需要 了 解数 据 的 结构 大 小 等 细节 
问题 了 。 比 如 ， 现 在 可 以 这 么 做 : 





>>> f = open('polys.bin', 'rb' 
>>> phead = PolyHeader.from_file(f) 
>>> phead.file_code == 0x1234 


>>> phead.min_x 
>>> phead.min_y 
>>> phead.max_x 
>>> phead.max_y 
>>> phead.num_polys 


3 
>>> 


[L SCR 


一 旦 引入 了 元 类 ， 束 可 以 为 其 构建 更 多 乔 能 化 
的 操作 。 比 如 说 ， 假 设想 对 骨 套 型 的 二 进 制 结构 提 
供 文 持 。 下 和 面 是 对 这 个 元 类 的 修改 ， 以 及 对 新 功能 
提供 支持 的 摘 述 符 定 义 : 





class NestedStruct 


Descriptor representing a nested structure 


def 


init__(self, name, struct_type, offset): 


self.name = name 


self.struct_type = struct_type 


self.offset = offset 


def 


__get__(self, instance, cls): 


if 


instance is 


None: 


return 


self 


else 


data = instance._buffer[self.offset: 


self.offset+self.struct_type.struct_size] 


result = self.struct_type(data) 
# Save resulting structure back on instance to avoid 


# further recomputation of this step 


setattr(instance, self.name, result) 


return 


result 
class StructureMeta 


(type): 


mre 


Metaclass that automatically creates StructField descriptors 


def 


__init__(self, clsname, bases, clsdict): 


fields = getattr(self, '_fields_', []) 


byte_order = '' 
offset = 0 
for 


format, fieldname in 


fields: 


if 


isinstance(format, StructureMeta): 


setattr(self, fieldname, 


NestedStruct(fieldname, format, offset)) 


offset += format.struct_size 


else 


if 


format.startswith(('<','>','!','@')): 


byte_order = format[0] 


format = format[1: ] 


format = byte_order + format 


setattr(self, fieldname, StructField(format, offset)) 


offset += struct.calcsize(format ) 


setattr(self, 'struct_size', offset) 








在 这 份 代 人 码 中 ，NestedStruct 描 述 符 的 作用 是 在 
一 段 内 存 区 域 上 定义 另 一 个 结构 名 。 这 是 通过 在 
原 内 存 绥 冲 区 中 取 一 个 切片 ， 然 后 在 这 个 切片 上 实 








例 化 给 定 的 结构 类 型 来 实现 的 。 由 于 底层 的 内 存 组 


冲 区 是 由 memoryview 来 初始 化 的 ， 因 此 这 个 切 廊 操 
作 不 会 涉及 任何 额外 的 内 存 找 贝 动作 。 相 反 ， 它 只 
征 在 原来 的 内 存 中 “ 蓝 兰 ”上 新 的 结构 实例 。 此 外 ， 
要 避免 重复 的 实例 化 动作 ， 这 个 描述 符 会 利用 8.10 
市 中 提 人 到 的 技术 将 内 层 结构 对 象 保存 在 该 实例 上 。 


使 用 这 种 新 的 拉 术 ， 现 在 就 可 以 像 这 样 编写 代 














但 了 





class Point 


(Structure): 


_fields_ = [ 


class PolyHeader 


(Structure): 


_fields_ = [ 


('<i', 'file_code'), 


(Point, 'min'), # nested struct 


(Point, 'max'), # nested struct 


('i', 'num_polys') 





KIAS, TAB eee RTE RA SI E 
运转 。 示 例如 下 : 





>>> f = open('polys.bin', 'rb') 

>>> phead = PolyHeader.from_file(f) 
>>> phead.file_code == 0x1234 

True 


>>> phead.min # Nested structure 


<__main__.Point object at 0x1006a48d0> 
>>> phead.min.x 


0.5 

>>> phead.min.y 

0.5 

>>> phead.max.x 

7.0 

>>> phead.max.y 

9.2 

>>> phead.num_polys 
3 


>>> 











到 目前 为 止 ， 我 们 已 经 成 功 开 发 了 一 个 用 来 处 
理 固定 大 小 记录 的 框 染 。 但 是 对 于 大 小 可 变 的 组 件 
又 该 如 何 处理 呢 ? 比如 说 ， 这 份 三 角形 数据 文件 的 
剩余 部 分 中 包含 有 大 小 可 变 的 区 域 。 





一 种 处 理 方 法 是 编写 一 个 类 来 简单 代表 一 块 二 
进 制 数据 ， 并 附 帝 一 个 通用 函数 来 负责 以 不 同 的 方 
式 来 解释 数据 的 内 容 。 这 这 和 6.11 节 中 的 代码 关系 紧 


LI e 





class SizedRecord 


def 


__init__(self, bytedata): 


self._buffer = memoryview(bytedata) 


@classmethod 


def 


from_file(cls, f, size_fmt, includes_size=True): 


sz_nbytes = struct.calcsize(size_fmt) 


sz_bytes = f.read(sz_nbytes) 


Sz, = struct.unpack(size_fmt, sz_bytes) 


buf = f.read(sz - includes_size * sz_nbytes) 


return 


cls(buf ) 


def 


iter_as(self, code): 


if 


isinstance(code, str): 


s = struct.Struct(code) 


for 


off in 


range(0, len(self._buffer), s.size): 


yield 


s.unpack_from(self._buffer, off) 


elif 


isinstance(code, StructureMeta): 


size = code.struct_size 


for 


off in 


range(0, len(self._buffer), size): 


data = self._buffer[off:off+size] 


yield 


code(data) 








这 里 的 类 方法 SizedRecord.from_fileO 是 一 个 通 





用 的 函数 ， 用 来 从 文件 中 读 取 大 小 预定 好 的 数据 
块 ， 这 在 许多 文件 格式 中 都 是 很 常见 的 。 对 于 输入 
参数 ， 它 可 接受 结构 的 格式 代码 ， 其 中 包含 有 编码 
的 大 小 《以 字 节 数 表 示 ) 。 可 选 参数 includes_size 
用 来 指定 字 节 数 中 是 否 要 包含 进 文件 头 的 大 小 。 下 
面 的 示例 展示 如 何 使 用 这 份 代 码 来 读 取 三 角形 数据 
文件 中 那些 单独 的 三 角形 : 























>>> f = open('polys.bin', 'rb') 
>>> phead = PolyHeader.from_file(f) 


>>> phead.num_polys 

3 

>>> polydata = [ SizedRecord.from_file(f, '<i') 
aha for 


n in 


range(phead.num_polys) ] 

>>> polydata 

[<__main__.SizedRecord object at 0x1006a4d50>, 
<__main__.SizedRecord object at 0x1006a4f50>, 
<__main__.SizedRecord object at 0x10070da90> | 
>>> 





可 以 看 到 ， AR 的 内 容 还 没有 经 过 
解释 。 要 做 到 这 一 点 ， 可 以 使 用 iter_as(0) 方 法 。 访 
方法 可 接受 一 个 A dnd 
a aa 由 来 选择 如 何 解释 数 

M: 





>>> for 


n, poly in 


enumerate(polydata): 
print 


i oa n) 
for 


p in 


ey iter_as('<dd'): 
print 


(p) 


Polygon 0 
(1.0, 2.5) 
(3.5, 4.0) 
(2.5, 1.5) 
Polygon 1 
(7.0, 1.2) 
(5.1, 3.0) 
(0.5, 7.5) 
(0.8, 9.0) 
Polygon 2 
(3.4, 6.3) 
(1.2, 0.5) 
(4.6, 9.2) 
>>> 


>>> for 
n, poly in 


enumerate(polydata): 
print 


('Polygon', n) 
vet for 


p in 


poly.iter_as(Point): 
rere print 


(p.x, p-y) 
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现在 我 们 把 所 有 的 东西 结合 
read_polysO 函 数 的 另 一 种 实现 : 





class Point 


(Structure): 
_fields_ = [ 
('<d', 'x'), 
('d', 'y') 


class PolyHeader 


(Structure): 
_fields_ = [ 
('<i', 'file_code'), 
(Point, 'min'), 
(Point, 'max'), 
('i', 'num_polys') 


起 来 。 下 面 


def 


read_polys(filename) : 


polys = [] 
with 


open(filename, 'rb') as 


phead = PolyHeader.from_file(f) 
for 


range(phead.num_polys): 
rec = SizedRecord.from_file(f, '<i') 


poly = [ (p.x, p.y) 
for 


p in 


rec.iter_as(Point) ] 


polys.append(poly) 
return 


polys 





6.12.3 pit 
本 节 展 示 了 多 种 高 级 编程 技术 的 实际 应 用 ， 这 


些 技术 包括 描述 符 、 惰 性 求 值 、 元 类 、 类 变量 以 及 
memoryview。 只 是 它们 都 用 于 一 个 非常 具体 的 目的 
ms 


本 节 给 出 的 实现 中 ， 一 个 非常 重要 的 特性 就 是 
强烈 基于 惰性 展开 〈lazy-unpacking) 的 思想 。 每 当 
创建 出 一 个 Structure 实 例 时 ，__init 0 方法 只 是 根 
据 提 供 的 字 节 数据 创建 出 一 个 memoryview， 除 此 之 
外 别 的 什么 都 不 做 。 具 体 而 言 束 是 这 个 时 候 不 会 进 
行 任何 的 解 包 或 其 他 与 结构 相关 的 操作 。 采 用 这 种 
方法 的 一 个 动机 是 我 们 可 能 只 对 二 进 制 记录 中 的 某 
几 个 特定 部 分 感 兴趣 。 与 其 将 整个 文件 解 包 展开 ， 
不 如 只 对 实际 要 访问 到 的 那 几 个 部 分 解 包 即 可 。 


要 实现 惰性 展开 和 对 值 进行 打包 ，StructField 
摘 述 符 束 派 上 用 场 了 。 用 户 在 _fields_ 中 列 出 的 每 个 
属性 都 会 转换 为 一 个 StructField 描 述 符 ， 它 保存 着 
相关 属性 的 结构 化 代码 和 相对 于 底层 内 存 缓冲 区 的 
字 节 偏 移 量 。 当 我 们 定义 各 种 各 样 的 结构 化 类 型 
时 ， 元 类 StructureMeta 用 来 自动 创建 出 这 些 描 述 
符 。 使 用 元 类 的 主要 原因 在 于 这 么 做 能 以 高 层次 的 
摘 述 来 指定 结构 的 格式 ， 完 全 不 用 操心 底层 的 细节 
问题 ， 因 而 能 极 大 地 简化 用 户 的 操作 。 


元 类 StructureMeta 中 有 一 个 微妙 的 方面 需要 注 
意 ， 那 就 是 它 将 字 节 序 给 规定 死 了 了。 也 就 说 ， 如 果 









































有 任何 属性 指定 了 字 节 序 〈< 指 代 小 端 序 ， 而 > 指 代 
KMF) ， 那 么 这 个 字 贡 序 束 适用 于 该 属性 之 后 的 
所 有 字段 。 这 种 行为 可 避免 我 们 产生 额外 的 键盘 输 
入 ， 同 时 也 使 得 在 定义 字段 时 可 以 切换 字 节 序 。 比 
如 次 ， 我 们 可 能 会 碰 到 下 面 这 样 更 加 复杂 的 数据 : 








class ShapeFile 


(Structure): 
_fields_ = [ ('>i', 'file_code'), # Big endian 这 里 是 大 端 ， 后 两 


'20s', '‘unused'), 
('i', 'file_length'), 
'<i', 'version'), # Little endian WA it, Ja? 


"shape_type'), 
), 


eae 
Cay 
Od; 
(‘dt 
(Ed 
(d; 
(als 
Ce 
(id 


) 
) 
) 
ol 
) 
) 
) 








前 文中 提 到 ， 解 诀 方 案 中 对 memoryviewO 的 使 
用 起 到 了 避免 内 存 找 贝 的 作用 。 当 结构 数据 开始 出 
现 艇 套 时 ，memoryview 可 用 来 在 相同 的 内 存 区 域 中 








禾 兰 上 不 同 的 结构 定义 。 这 种 行为 十 分 微妙 ， 它 考 
虑 到 了 切片 操作 在 memoryview 和 普通 的 字 节 数组 上 
的 不 同行 为 。 如 条 对 字 节 串 或 字 布 数组 执行 切片 操 
作 的 话 ， 通 第 都 会 得 到 一 份 数据 的 拷贝 ， 但 
memoryview 残 不 会 这 样 一 一 切片 只 是 价 单 地 乾 兰 在 
己 有 的 内 存 之 上 。 因 此 ， 这 种 方法 更 加 高 效 。 


还 有 一 些 相 关 的 章节 会 帮助 我 们 对 解决 方案 中 
用 到 的 技术 进行 扩展 。8.13 节 中 采用 描述 符 构 建 了 
一 个 类 型 系统 。8.10 节 中 介绍 了 有 关 惰 性 计算 的 性 
质 ， 这 个 和 NestedStruct 摘 述 符 的 实现 有 一 定 的 相关 
性 。9.19 市 中 有 一 个 例子 采用 元 类 来 初始 化 类 的 成 
员 ， 这 个 和 StructureMeta 类 采用 的 方式 非常 相似 。 
我 们 可 能 也 会 对 Python 标准 库 中 ctypes 模 块 的 源 代 
人 码 产 生 兴 趣 ， 因 为 它 对 定义 数据 结构 、 对 数据 结构 
以 及 类 似 功 能 的 支持 和 我 们 的 解决 方案 比较 

日 似 。 























6.13 ”数据 汇总 和 统计 
6.13.1 问题 


我 们 需要 在 大 型 数据 库 中 碍 询 数据 并 由 此 生成 
汇总 或 者 其 他 形式 的 统计 数据 。 








6.13.2 解决 方案 


对 于 任何 涉及 统计 、 时 间 序 列 以 及 其 他 相关 技 
术 的 数据 分 析 问 题 ， 都 应 该 使 用 Pandas 库 
(http://pandas.pydata.org ) 。 


为 了 小 斌 牛刀， 下面 这 个 例子 使 用 Pandas 来 分 
Ar MM at YS pA A i Z| (https:// 
data.cityofchicago.org/Service-Requests/311-Service- 
Requests-Rodent-Baiting/97t6-zrhs ) 。 在 写作 本 书 
时 ， 这 个 CSV 文 件 中 有 大 约 74 000 条 数据 : 





>>> import pandas 


>>> # Read a CSV file, skipping last line 


>>> rats = pandas.read_csv('rats.csv', skip _footer=1) 


>>> rats 

<class 'pandas.core.frame.DataFrame'> 
Int64Index: 74055 entries, 0 to 74054 
Data columns: 


Creation Date 74055 non-null values 
Status 74055 non-null values 
Completion Date 72154 non-null values 
Service Request Number 74055 non-null values 
Type of Service Request 74055 non-null values 
Number of Premises Baited 65804 non-null values 
Number of Premises with Garbage 65600 non-null values 
Number of Premises with Rats 65752 non-null values 
Current Activity 66041 non-null values 

Most Recent Action 66023 non-null values 
Street Address 74055 non-null values 
ZIP Code 73584 non-null values 

X Coordinate 74043 non-null values 

Y Coordinate 74043 non-null values 

ward 74044 non-null values 
Police District 74044 non-null values 
Community Area 74044 non-null values 
Latitude 74043 non-null values 
Longitude 74043 non-null values 
Location 74043 non-null values 


dtypes: float64(11), object(9) 
>>> # Investigate range of values for a certain field 


>>> rats['Current Activity'].unique() 
array([nan, Dispatch Crew, Request Sanitation Inspector], dtype= 
>>> # Filter the data 


>>> crew_dispatched = rats[rats['Current Activity'] == 'Dispatch 
>>> len(crew_dispatched) 

65676 

>>> 


>>> # Find 10 most rat-infested ZIP codes in Chicago 


>>> crew_dispatched['ZIP Code'].value_counts()[:10] 
60647 3837 


60618 3530 


60614 3284 
60629 3251 
60636 2801 
60657 2465 
60641 2238 
60609 2206 
60651 2152 
60632 2071 
>>> 


>>> # Group by completion date 


>>> dates = crew_dispatched.groupby('Completion Date' ) 
<pandas.core.groupby.DataFrameGroupBy object at 0x10d0a2a10> 
>>> len(dates) 

472 

>>> 

>>> # Determine counts on each day 


>>> date_counts = dates.size() 
>>> date_counts[0:10] 
Completion Date 


01/03/2011 4 
01/03/2012 125 
01/04/2011 54 
01/04/2012 38 
01/05/2011 78 
01/05/2012 100 
01/06/2011 100 
01/06/2012 58 
01/07/2011 1 
01/09/2012 12 
>>> 


>>> # Sort the counts 


>>> date_counts.sort() 
>>> date_counts[-10: ] 
Completion Date 


10/12/2012 313 


10/21/2011 314 
09/20/2011 316 
10/26/2011 319 
02/22/2011 325 
10/26/2012 333 
03/17/2011 336 
10/13/2011 378 
10/14/2011 391 
10/07/2011 457 


>>> 








你 没 看 错 ，2011 年 10 月 7 号 对 于 老鼠 来 说 的 确 
是 非常 忙碌 的 一 天 。 


6.13.3 ”讨论 


Pandas 是 一 个 庞大 的 库 ， 它 还 有 更 多 的 功能 ， 
但 我 们 无 法 在 此 一 一 描述 。 但 是 ， 如 果 需 要 分 析 大 
型 的 数据 集 、 将 数据 归 组 、 执 行 统计 分 析 或 者 其 他 
类 似 的 任务 ， 那 么 Pandas 绝 对 值得 一 试 。 


HH Wes McKinney} 34 H'JPython for Data 
Analysis (O’Reilly) 一 书 中 也 包含 了 更 多 的 内 容 。 


[1] Num-Premises 中 的 -不 能 用 作 Python 的 标识 符 
字符 。 详 者 注 





[2] ”类 似 C++ 中 的 placement new 技 法 。 一 一 译 者 注 


第 7 间 KAŽ 


用 def 语 句 定 义 的 函数 是 所 有 程序 的 基石 。 本 
革 的 目的 是 同 读 者 展示 一 些 更 加 蜗 级 和 独特 的 函数 
定义 以 及 使 用 模式 。 主 题 包括 默认 参数 、 可 接受 任 
意 数 量 参 数 的 函数 、 关 键 字 参数 、 参 数 注 解 以 及 闭 
包 。 此 外 ， 有 关 利 用 回调 函数 实现 巧妙 的 控制 流 以 
及 数据 传递 的 问题 也 有 涉及 。 








7.1 编写 可 接 党 任意 数量 参数 的 六 
BL 


7.1.1 问题 
我 们 想 编 写 一 个 可 接受 任意 数量 参数 的 函数 。 
7.1.2 解决 方案 


要 编写 一 个 可 接受 任意 数量 的 位 置 参 数 的 函 
数 ， 可 以 使 用 以 * 开 头 的 参数 。 丰 例如 下 : 





def 


avg(first, *rest): 
return 


(first + sum(rest)) / (1 + len(rest)) 


# Sample use 


avg(1, 2) # 1.5 


avg(1, 2, 3, 4) # 2.5 


ee 


在 这 个 示例 中 ，rest 是 一 个 元 组 ， 


它 包 含 了 其 


他 所 有 传递 过 来 的 位 置 参数 。 人 代码 在 之 后 的 计算 中 


会 将 其 视 为 一 个 序列 来 处 理 。 


如 果 要 接 有 党 任意 数量 的 关键 字 参 数 ， 可 以 使 用 


以 ** 开 头 的 参数 。 示 例如 下 : 





import html 


def 


make_element(name, value, **attrs): 
keyvals = [' %s="%s"' % item for 


item in 


attrs.items() ] 
attr_str = ''.join(keyvals) 
element = '<{name}{attrs}>{value}</{name}> 
name=name, 
attrs=attr_str, 
value=html.escape(value) ) 
return 


element 


'. format ( 


# Example 


# Creates '<item size="large" quantity="6">Albatross</item>' 


make_element('item', 'Albatross', size='large', quantity=6) 


# Creates '<p><spam></p>' 


make_element('p', '<spam>' ) 





在 这 里 attrs 是 一 个 字典 ， 它 包含 了 所 有 传递 过 
来 的 关键 字 参 数 (如 果 有 的 话 ) 。 


UFR RE PK ane E 同 时 接受 任意 数量 的 位 置 参数 
和 关键 字 参 数 ， 只 要 联合 使 用 * 和 ** 即 可 。 示 例如 
F, 





def 


anyargs(*args, **kwargs): 
print 


(args) # A tuple 


print 


(kwargs) # A dict 





在 这 个 函数 中 ， 所 有 的 位 置 参数 部 会 放置 在 元 
组 args 中 ， 而 所 有 的 关键 字 参 数 都 会 放置 在 字典 





kwargs 中 。 
7.1.3 ”讨论 


在 函数 定义 中 ， 以 * 打 头 的 参数 只 能 作为 最 后 
一 个 位 置 参数 出 现 ， 而 以 ** 打 头 的 参数 只 能 作为 最 
后 一 个 参数 出 现 。 在 函数 定义 中 存在 一 个 很 微妙 的 
特性 ， 那 就 是 在 * 打 头 的 参数 后 仍然 可 以 有 其 他 的 
参数 出 现 。 








def 


a(x, *args, y): 
pass 


b(x, *args, y, **kwargs): 


ee 


这 样 的 参数 称 之 为 keyword-only 参 数 (E0, HH 
现在 *args 之 后 的 参数 只 能 作为 天 键 字 参数 使 用 ) 。 
7.2 节 中 会 做 进一步 的 讨论 。 


7.2 编写 只 接受 关键 字 参 数 的 函数 
7.2.1 问题 


我 们 希望 函数 只 通过 关键 字 的 形式 接受 特定 的 
参数 。 


7.2.2 ”解决 方案 
如 果 将 关键 字 参 数 放 置 在 以 * 打 头 的 参数 或 者 


是 一 个 单独 的 * 之 后 ， 这 个 特性 就 很 容易 实现 。 示 
例如 下 : 





def 


recv(maxsize, *, block): 
"Receives a message' 
pass 


recv(1024, True) # TypeError 


recv(1024, block=True) # Ok 


Le 


这 项 技术 也 可 以 用 来 为 那些 可 接受 任意 数量 的 
位 置 参数 的 函数 来 指定 关键 字 参 数 。 示 例如 下 : 


def 


mininum(*values, clip=None): 
m = min(values ) 
if 


clip is not 


m= clip if 


clip > m else 


return 


m 


minimum(1, 5, 2, -5, 10) # Returns - 


minimum(1, 5, 2, -5, 10, clip=0) # Returns © 





7.2.3 ”讨论 


当 指 定 可 选 的 函数 参数 时 ，keyword-only 参 数 
弟弟 是 一 种 提高 代码 可 读 性 的 好 方法 。 比 如 ， 考 虑 
下 面 这 个 调用 : 


msg = recv(1024, False) 


如 果 某 些 人 不 熟悉 recv() 的 工作 方式 ， 他 们 可 
能 会 搞 不 清楚 这 里 的 False 参 数 到 底 表 示 了 什么 意 
义 。 而 另 一 方面 ， 如 果 这 个 调用 可 以 写成 下 面 这 样 
Wi, Abt HAMS J: 


msg = recv(1024, block=False) 


企 有 关 **kwargs 的 技巧 中 ， 使 用 keyword-only 
参数 第 第 也 是 很 可 取 的 。 因 为 当 用 户 请 求 帮 助 信息 
时 ， 它 们 可 以 适时 地 显示 出 来 : 





>>> help(recv) 
Help on function recv in module __main_: 
recv(maxsize, *, block) 


Receives a message 
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同样 也 能 起 到 作用 。 比 如 说 ， 可 以 用 来 为 函数 注入 
参数 ， 这 些 函 数 利 用 *args 和 **kwargs 接 受 所 有 的 输 
入 参数 。 可 参见 9.11 节 中 的 示例 。 


7.3 ”将 元 数据 信息 附加 到 函数 参数 
iis 


7.3.1 问题 


我 们 已 经 编写 好 了 一 个 函数 ， 但 是 希望 能 为 参 
数 附加 上 一 些 额外 的 信息 ， 这 样 其 他 人 可 以 对 函数 
的 使 用 方法 有 更 多 的 认识 和 了 解 。 





7.3.2 ”解决 方案 


PK ZHY 参数 注解 可 以 提示 程序 员 访 函数 应 该 如 
何 使 用 ， 这 是 很 有 帮助 的 。 比 如 说 ， 考 虑 下 面 这 个 
市 参数 注解 的 函数 : 





def 


add(x:int, y:int) -> int: 


return 


x+y 








Python 解释 需 并 不 会 附加 任何 语法 意义 到 这 


参数 注解 上 。 它 们 既 不 是 类 型 检 僵 也 不 会 改变 
Python 的 行为 。 但 是 ， 参 数 注解 会 给 其 他 阅读 源 代 
码 的 人 带 来 有 用 的 提示 。 一 些 第 三 方 工具 和 框架 可 
能 也 会 为 注解 加 上 语法 含义 。 这 些 注解 也 会 出 现在 
文档 中 : 


>>> help(add) 
Help on function add in module __main_: 











add(x: int, y: int) -> int 


>>> 





尽管 可 以 将 任何 类 型 的 对 象 作 为 函数 注解 附加 
i 实例 等 ) ， 
但 是 通常 只 有 类 和 字符 串 才 显得 最 有 意义 。 








7.3.3 ”讨论 


函数 注解 只 会 保存 在 函数 的 _annotations ”局 
性 中 。 示 例如 下 : 


>>> add.__annotations__ 
{'y': <class 'int'>, 'return': <class 'int'>, 'x': <class 'int'> 





尽管 函数 注解 有 着 许多 潜在 的 用 途 ， 但 它们 的 
要 功能 也 许 就 是 丰富 一 下 文档 内 容 了 。 因为 





Python 中 并 没有 类 型 声明 ， 所 以 如 果 只 是 简单 地 阅 
读 一 下 源 代 码 束 想 知 道 打算 给 函数 传递 什么 对 象 和 
常 是 比较 困难 的 。 函 数 注 解 就 可 以 带 给 我 们 更 多 的 
提示 。 


请 参见 9.20 节 中 的 高 级 示例 ， 那 个 例子 展示 了 
如 何 利用 函数 注解 来 实现 函数 重 载 。 





7.4 ”从 函数 中 返回 多 个 值 
7.4.1 问题 

我 们 想 从 函数 中 返回 多 个 值 。 
7.4.2 ”解雇 方案 


要 从 函数 中 返回 多 个 值 ， 只 要 简单 地 返 
元 组 即 可 。 示 例如 下 : 





return 


, C= myfun() 





7.4.3 tir 


尽管 看 起 来 myFun0 返 回 了 多 个 值 ， 但 实际 上 
它 只 创建 了 一 个 元 组 而 已 。 这 看 起 来 有 点 奇怪 ， 但 
是 实际 上 元 组 是 通过 运 亏 来 组 成 的 ， 不 是 那些 圆 括 
号 。 示 例如 下 : 

















# With parentheses 


# Without parentheses 








当 调 用 的 函数 返回 了 元 组 ， 通 向 会 将 结 采 赋值 
给 多 个 变量 ， 束 像 示 例 中 那样 。 实 际 上 这 就 是 简单 
的 元 组 解 包 ， 我 们 在 1.1 节 中 残 已 经 提 到 过 了 。 返 回 
的 值 也 可 以 只 赋 给 一 个 单独 的 变量 : 














>>> x = myfun() 
>>> x 
(1, 2, 3) 


>>> 
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75 ”定义 带 有 默认 参数 的 函数 
7.5.1 ”问题 


我 们 想 定 义 一 个 函数 或 者 方法 ， 其 中 有 一 个 或 
多 个 参数 是 可 选 的 并 且 带 有 默认 值 。 


7.5.2 ”解决 方案 
表面 上 看 定义 一 个 带 有 可 选 参数 的 函数 是 非常 


简单 的 一 一 只 需要 在 定义 中 为 参数 赋值 ， 并 确保 黑 
认 参 数 出 现在 最 后 即 可 。 示 例如 下 : 














def 


spam(a, b=42): 
print 


(a, b) 


spam(1) # Ok. a=1, b=42 


spam(1, 2) # Ok. a=1, b=2 


[L ú 


如 打上 默认 值 是 可 变 容 右 的 话 ， 比 如 说 列表 、 集 
合 或 者 字典 ， 那 么 应 该 把 None 作 为 默认 值 ， 代 码 应 
该 像 这 样 编 与 : 


# Using a list as a default value 


def 


spam(a, b=None): 
if 


b is 








如 条 不 打算 提供 一 个 默认 值 ， 只 是 想 编写 代码 
来 检测 可 选 参数 是 否 被 赋予 了 条 个 特定 的 值 ， 那 么 
可 以 采用 下 面 的 惯用 手法 : 





_no_value = object() 


def 


Spam(a, b=_no_value): 


if 


b is 


_no_value: 
print 


('No b value supplied' ) 





这 个 函数 的 行为 是 这 样 的 : 


>>> spam(1) 
No b value supplied 
>>> spam(1, 2) # b= 2 


>>> spam(1, None) # b = None 








请 仔细 区 分 不 传递 任何 值 和 传递 None 之 间 的 区 


7.5.3 “讨论 
定义 带 有 默认 参数 的 函数 看 似 很 容易 ， 但 其 实 





并 不 像 看 到 的 那么 简单 。 


首先 ， 对 默认 参数 的 赋值 只 会 在 函数 定义 的 时 
候 绑 定 一 次 。 可 用 下 面 这 个 例子 做 下 试验 : 


>>> x = 42 
>>> def 


ee b=x): 
Te print 


>>> spam(1) 
1 42 


>>> x = 23 # Has no effect 


>>> spam(1) 
1 42 
>>> 





注意 到 修改 变量 x 的 值 〈x 被 作为 函数 参数 的 默 
认 值 〉 并 没有 对 函数 产生 任何 效果 。 这 是 因为 默认 
值 已 经 在 函数 定义 的 时 候 束 确定 好 了 了。 


其 次 ， 给 默认 参数 赋值 的 应 该 总 是 不 可 变 的 对 
象 ， 比 如 None、True、False、 数 字 或 者 字符 串 。 特 

















别 有 要 注意 的 是 ， 绝 对 不 要 编写 这 样 的 代码 : 


def 


spam(a, b=[]): 





如 果 这 么 做 了 融会 陷入 到 各 种 麻烦 之 中 。 如 果 
默认 值 在 函数 体 之 外 被 修改 了 ， 那 么 这 种 修改 将 在 
之 后 的 函数 调用 中 对 参数 的 默认 值 产 生 持续 的 影 
啊 。 示 例如 下 : 





print 


(b) 


return 


>>> x = spam(1) 
>>> x 


[] 
>>> x.append(99) 
>>> x.append('Yow!') 


>>> spam(1) # Modified list gets returned! 





这 很 可 能 不 是 所 期 望 的 结果 。 要 避免 出 现 这 种 





问题 ， 最 好 按照 解决 方案 中 的 做 法 ， 使 用 None 作 为 
默认 值 并 在 函数 体 中 增加 一 个 对 默认 值 的 检查 。 


当 检 测 默 认 参 数 是 否 为 None 时 ， 本 节 示 例 的 关 
键 之 处 在 于 对 is 操 作 符 的 运用 。 有 了 时候 人 们 会 犯 这 
样 的 错误 : 








def 


spam(a, b=None): 
if not 


b: # NO! Use 'b is None' instead 


OS 


这 里 出 现 的 问题 在 于 尽管 None 会 被 判定 为 
False， 可 是 还 有 许多 其 他 的 对 象 〈 比 如 长 度 为 0 的 
FIE, IR, mA FRS) 也 存在 这 种 行为 。 
因此 ， 上 面 示例 给 出 的 条 件 检测 会 将 某 些 特定 的 输 
入 也 判定 为 False， 从 而 错误 地 忽略 挥 这些 输 入 值 。 
示例 如 下 : 








>>> X = 
>>> spam(1, x) # Silent error. x value overwritten by de 


>>> spam(i, 0) # Silent error. © ignored 


# Silent error. '' ignored 








本 节 最 后 讨论 的 内 容 更 加 巧妙 在 函数 中 检 
测 是 人 否 对 可 选 参数 提供 了 某 个 特定 值 〈 可 以 是 任意 
E) 。 这 里 最 为 环 手 的 地 方 在 于 我 们 不 能 用 None、 








0 或 者 False 当 做 默认 值 来 检测 用 户 是 否 提供 了 参数 

(因为 所 有 这 些 值 都 是 完全 合法 的 参数 ， 用 户 极 有 
可 能 将 它们 当做 参数 ) 。 因 此 ， 需 要 用 其 他 的 办 法 
来 检测 。 


要 解决 这 个 问题 ， 可 以 利用 objectO 创 建 一 个 独 
特 的 私有 实例 ， 就 像 解 诀 方 案 中 给 出 的 那样 〈 即 ， 
变量 no_value) 。 在 函数 中 ， 可 以 用 这 个 特殊 值 来 
同 用 户 提供 的 参数 做 相等 性 检测 ， 以 此 判断 用 户 是 
个 提供 了 参数 。 这 里 主要 考虑 到 对 于 用 户 来 说 ， 把 
_no_value 实 例 作 为 输入 参数 几乎 是 不 可 能 的 。 
此 ， 如 果 要 判断 用 户 是 否 提供 了 某 个 参数 ， 
_no_value 束 成 了 一 个 可 以 用 来 安全 比较 的 值 。 


这 里 用 到 的 objectO 可 能 看 起 来 很 不 常见 。 
object 作 为 Python 中 几乎 所 有 对 象 的 基 类 而 存在 。 可 
以 创建 object 的 实例 ， 但 是 它们 没有 任何 值得 注意 
的 方法 ， 也 没有 任何 实例 数据 ， 因 此 一 般 来 说 我 们 
对 它 是 宫 无 兴趣 的 《因为 底层 缺少 _dict_ 字典 ， 
我 们 甚至 没 法 为 它 设置 任何 属性 ) 。 唯 一 可 做 的 束 
是 检测 相等 性 ， 这 也 使 得 它们 可 作为 特殊 值 来 使 
用 ， 就 像 我 们 给 出 的 解决 方案 中 那样 。 

















7.6 JEN E Z ATK A 
7.6.1 问题 


我 们 需要 提供 一 个 短小 的 回调 函数 为 sort() 这 样 
的 操作 所 用 ， 但 是 又 不 想 通过 def 语 句 编 写 一 个 单行 
的 函数 。 相 反 ， 我 们 更 希望 能 有 一 种 简便 的 方式 来 
定义 “内 联 ? 却 的 函数 。 

















7.6.2 ”解决 方案 


像 这 种 仅仅 完成 表达 式 求 值 的 简单 函数 可 以 通 
过 lambda 表 达 式 来 普 代 。 示 例如 下 : 


>>> add = lambda 


X, Yi X +t y 
>>> add(2,3) 
5 


>>> add('hello', 'world') 
"helloworld' 
>>> 





这 里 用 到 的 ljambda 表 达 式 与 下 面 的 函数 定义 有 
着 相同 的 功能 : 


>>> def 


add(x, y): 


return 


>>> add(2,3) 
5 


>>> 





一 般 来 说 ，lambda 表 达 式 可 用 在 如 下 的 上 下 文 
环境 中 ， 比 如 排序 或 者 对 数据 进行 整理 时 : 


>>> names = ['David Beazley', 'Brian Jones', 


"Raymond Hettinger', 'Ned Batchelder ' | 
>>> sorted(names, key=lambda 


name: name.split()[-1].lower()) 


['Ned Batchelder', 'David Beazley', ‘Raymond Hettinger', 'Brian 
>>> 





7.6.3 iit 


尽管 lambda 表 达 式 允许 定义 简单 的 函数 ， 但 它 
的 局 限 性 也 很 大 。 有 基体 来 说 ， 我 们 只 能 指定 一 条 单 
独 的 表达 式 ， 这 个 表达 式 的 结果 就 是 函数 的 返回 
值 。 这 意味 着 其 他 的 语言 特性 比如 多 行 语句 、 条 件 
分 文 、 迭 代 和 有 开 第 处 理 统统 都 无 法 使 用 。 


不 使 用 lambda 表 达 式 也 可 以 愉快 地 编写 出 大 量 
的 Python 人 代码。 但是， 还 是 时 不 时 会 在 一 些 程序 中 
见 到 lambda 的 身影 。 比 如 有 的 人 会 编写 很 多 微型 函 
数 来 对 各 种 表达 式 进 行 求 值 ， 或 者 在 需要 用 户 提供 
回调 函数 的 时 候 ， 这 时 lambda 表 达 式 就 能 派 上 用 场 
了 。 








7.7 TEE RA a cE E E 
7.7.1 问题 
我 们 利用 lambda 表 达 式 定义 了 一 个 匿名 函数 ， 


但 是 也 希望 可 以 在 函数 定义 的 时 候 完 成 对 特定 变量 
的 绑 定 。 








7.7.2 ”解决 方案 
考虑 下 列 代码 的 行为 : 


>>> x = 10 
>>> a = lambda 


>>> b = lambda 


yi X + y 
>>> 








现在 请 问 目 己 一 个 问题 ，a(10) 和 b(10) 的 结果 
是 多 少 ? 如 果 觉 得 结果 是 20 和 30 的 话 ， 那 就 错 了 : 


>>> ae) | 








这 里 的 问题 在 于 lambda 表 达 式 中 用 到 的 x 是 一 
个 目 由 变量 ， 在 运行 时 才 进 行 绑 定 而 不 是 定义 的 时 
候 绑 定 。 因 此 ，lambda 表 达 式 中 x 的 值 应 该 是 在 执 
行 时 确定 的 ， 执 行 时 x 的 值 是 多 少 束 是 多 少 。 示 例 
如 下 : 








如 果 布 望 匿名 函数 可 以 在 定义 的 时 候 绑 定 变 
量 ， 并 保持 值 不 变 ， 那 么 可 以 将 那个 值 作为 堆 认 参 
BULL, WR BEI: 








>>> x = 10 
>>> a = lambda 


>>> b = lambda 


Y, xXx=x: X+ y 
>>> a(10) 

20 

>>> b(10) 

30 

>>> 





7.7.3 ”讨论 





本 节 中 提 到 的 问题 一 般 比 较 容 易 出 现在 那些 对 
lambda 函 数 过 于 “聪明 ”的 应 用 上 。 比 方 说 ， 通 过 列 
表 推 导 来 创建 一 列 lambda 表 达 式 ， 或 者 在 一 个 循环 
中 期 望 lambda 表 达 式 能 够 在 定义 的 时 候 记 住 迄 代 变 
se. ANION EP: 














>>> funcs = [lambda 


x: xtn for 


n in 


range(5) | 
>>> for 


print 


V 人 人 上 上 人 





我 们 可 以 注意 到 所 有 的 函数 都 认为 n 的 值 为 4， 
tater (UP ipa “Meo BOTA e i CS 





做 下 对 比 : 





>>> funcs = [lambda 


x, n=n: x+n for 


n in 


range(5) | 
>>> for 


VBWNFR O 





可 以 看 到 ， 现 在 函数 可 以 在 定义 的 时 候 捕 获 到 
n 的 值 了 。 


7.8 让 市 有 N 个 参数 的 可 调用 对 象 
以 较 少 的 参数 形式 调用 


7.8.1 问题 


我 们 有 一 个 可 调用 对 象 可 能 会 以 回调 函数 的 形 
式 同 其 他 的 Python 代码 交互 。 但 是 这 个 可 调用 对 象 
需要 有 的 参数 过 多 ， 如 果 直 接 调 用 的 话 会 产生 异常 。 


7.8.2 RTR 


如 果 需 要 减少 函数 的 参数 数量 ， 应 该 使 用 
functools.partial(). pk 2Xpartial() MIRNA — ANK 
多 个 参数 指定 固定 的 值 ， 以 此 减少 需要 提供 给 之 后 
调用 的 参数 数量 。 为 了 说 明 这 个 过 程 ， 假 设 有 这 人 么 








def 


Spam(a, b, c, d): 
print 


(a, b, c, d) 





现在 考虑 用 partial() 来 对 参数 赋 固 定 的 值 : 


>>> from functools import 


partial 
>>> si = partial(spam, 1) 


s1(2, 3, 4) 

3 4 

s1(4, 5, 6) 

5 6 

s2 = partial(spam, d=42) 


s2(1, 2, 3) 

3 42 

s2(4, 5, 5) 

5 42 

S3 = partial(spam, 1, 2, d=42) 


$3(3) 
3 42 
s3(4) 
4 42 
s3(5) 
5 42 








我 们 可 以 观察 到 partial0 对 特定 的 参数 赋 了 固定 
值 并 返回 了 一 个 全 新 的 可 调用 对 象 。 这 个 新 的 可 调 
用 对 象 仍 然 需 要 通过 指定 那些 未 被 赋值 的 参数 来 调 
用 。 这 个 新 的 可 调用 对 象 将 传递 给 partial() 的 固定 参 


数 结合 起 来 ， 统 一 将 所 有 的 参数 传递 给 原始 的 函 


7.8.3 ”讨论 


本 市 扣 到 的 拉 术 对 于 将 看 似 不 兼容 的 代码 结合 
起 来 使 用 是 大 有 神 益 的 。 下 面 我 们 用 一 系列 的 示例 
来 帮助 理解 。 


第 一 个 例子 是 ， 假 设 有 一 列 以 元 组 (x, y) 来 表示 
的 点 坐标 。 可 以 用 下 面 的 函数 来 计算 两 点 之 间 的 距 
A: 





points = [ (1, 2), (3, 4), (5, 6), (7, 8) ] 


import math 


def 


distance(p1, p2): 
x1, yi = pl 
x2, y2 = p2 
return 


math.hypot(x2 - x1, y2 - y1) 








现在 假设 想 根 据 这 些 点 之 间 的 距离 来 对 它们 排 


序 。 列 表 的 sort(0) 方 法 可 接受 一 个 key 参 数 ， 它 可 用 
来 做 上 自 定 义 的 排序 处 理 。 但 是 它 只 能 和 接受 单 参数 
的 函数 一 起 工作 (因此 和 distance() 是 不 兼容 的 〉。 
下 面 我 们 用 partical(0) 来 解决 这 个 问题 : 











>>> pt = (4, 3) 
>>> points.sort(key=partial(distance, pt)) 
>>> points 


[(3, 4), (1, 2), (5, 6), (7, 8)] 
>>> 





我 们 可 以 对 这 个 思路 进行 扩展 ，partial() 和 常常 可 
用 来 调整 其 他 库 中 用 到 的 回调 函数 的 参数 签名 。 比 
方 说 ， 这 里 有 一 段 代 码 利用 multiprocessing 模 块 以 
异步 方式 计算 某 个 结果 ， 并 将 这 个 结果 传递 给 一 个 
回调 函数 。 该 回调 函数 可 接受 这 个 结果 以 及 一 个 可 
选 的 日 志 人 参数: 








def 


output_result(result, log=None): 
if 


log is not 
None: 


log.debug('Got: %r', result) 


# A sample function 


_hname == ' main__': 
import logging 


from multiprocessing import 


Pool 
from functools import 


partial 


logging .basicConfig(level=logging .DEBUG) 
log = logging.getLogger('test' ) 


p = Pool() 

p.apply_async(add, (3, 4), callback=partial(output_result, 1 
p.close() 

p.join() 








“4 FR] Eapply_async() F #8 xe [Al Val ee BEN, K 
外 的 日 志 参 数 是 通过 partical(0) 来 指定 的 。 
multiprocessing 模块 对 于 这 些 细节 根本 一 无 所 知 








一 一 它 只 通过 单个 参数 来 调用 回调 函数 。 


作为 类 似 的 例子 ， 考 虑 一 下 我 们 在 编号 网 络 服 
务 占 程序 时 面 对 的 问题 。 有 了 socketserver 模 块 ， 这 
一 切 相 对 来 说 都 变 得 很 简单 了 。 比 方 说 ， 下 面 有 一 
六 简单 的 echo 服 务 程序 : 


from socketserver import 


StreamRequestHandler, TCPServer 


class EchoHandler 


(StreamRequestHandler ) : 
def 


handle(self): 
for 


line in 


self.rfile: 


self .wfile.write(b'GOT:' + line) 


serv = TCPServer(('', 15000), EchoHandler ) 
serv.serve_forever() 





现在 ， 假 设 我 们 想 在 EchoHandler 类 中 增加 一 
init (0) 方 法， 让 和 它 接 受 一 个 额外 的 配置 参数 。 


个 


示例 如 下 : 


class EchoHandler 


(StreamRequestHandler ): 
# ack is added keyword-only argument. *args, **kwargs are 


# any normal parameters supplied (which are passed on) 


def 


__init__(self, *args, ack, **kwargs): 
self.ack = ack 
Super().__init__(*args, **kwargs) 

def 


handle(self): 
for 


line in 


self.rfile: 
self.wfile.write(self.ack + line) 





如 果 做 了 上 述 改 动 ， 现 在 就 会 发 现 没 法 简单 地 
将 其 插入 到 TCPServer 类 中 了 。 事 实 上 ， 你 会 友 现 
代码 会 产生 如 下 的 异常 : 


Exception happened during processing of request from ('127.0.0.1 
Traceback (most recent call last): 


TypeError: __init__() missing 1 required keyword-only argument: 





WAR EE, R 1B rXsocketserver VE iy ae 
RA 2S SKA BEA, WAP BHI E 
这 份 代码 了 。 但 是 ， 利 用 partical() 束 能 轻松 解决 这 
个 问题 。 只 用 在 partial0 中 提供 ack 的 参数 值 即 可 ， 
LR BI: 





from functools import 


partial 


serv = TCPServer(('', 15000), partial(EchoHandler, ack=b'RECEIVE 
serv.serve_forever() 





在 这 个 例子 里 ，_init_ 0) 方法 中 对 参数 ack 的 
指定 看 起 来 有 些 滑 稿 ， 但 它 是 以 keyword- only 人 参数 
的 形式 来 指定 的 。 有 关 keyword-only 参 数 的 讨论 可 
以 在 7.2 节 中 找到 。 


有 时 候 也 可 以 通过 lambda 表 达 式 来 奉 代 
partial0。 比 如 ， 上 面 这 几 个 例子 也 可 以 采用 这 样 的 
语句 来 实现 : 








points.sort(key=lambda 


p: distance(pt, p)) 


p.apply_async(add, (3, 4), callback=lambda 


result: output_result(result, log) ) 


serv = TCPServer(('', 15000), 
lambda 


*args, **kwargs: EchoHandler(*args, 


ack=b 'RECEI 
**kwargs) ) 





这 些 代码 也 能 正 第 工作 ， 但 是 却 显 得 很 鹃 嗓 ， 
而 且 也 让 人 党 得 恋 起 来 很 困惑 。 使 用 partial0 会 使 得 
你 的 意图 更 加 明确 〈 即 ， 为 某 些 参数 提供 默认 
EL) g 











7.9 用 图 数 普 代 只 有 单个 方法 的 类 
7.9.1 问题 


我 们 有 一 个 只 定义 了 一 个 方法 的 类 《了 奈 
init (0 方法 外 ) 。 但 是 ， 为 了 简化 代码 ， 我 们 更 
硕 望 能 够 只 用 一 个 简单 的 国 数 来 奉 代 。 


7.9.2 ”解决 方案 


在 许多 情况 下 ， 只 有 单个 方法 的 类 可 以 通过 闭 
, (closure) 将 其 转换 成 函数 。 考 虑 下 面 这 个 例 
子 ， 这 个 类 允许 用 户 通 过 某 种 模板 方案 来 获取 
URL. 











from urllib.request import 


urlopen 


class UrlTemplate 


def 


__ init__(self, template): 
self.template = template 
def 


open(self, **kwargs): 
return 


urlopen(self.template.format_map(kwargs) ) 


# Example use. Download stock data from yahoo 


yahoo = UrlTemplate('http://finance.yahoo.com/d/quotes.csv?s={na 
for 


line in 


yahoo.open(names='IBM,AAPL,FB', fields='sliciv'): 
print 


(line.decode('utf-8')) 





这 个 类 可 以 用 一 个 简单 的 函数 来 取代 : 





def 


urltemplate(template): 
def 


opener (**kwargs): 
return 


urlopen( template. format_map(kwargs) ) 
return 


opener 


# Example use 


yahoo = urltemplate('http://finance.yahoo.com/d/quotes.csv?s={na 
for 


line in 


yahoo(names='IBM,AAPL,FB', fields='sliciv'): 
print 


(line.decode('utf-8')) 





7.9.3 ”讨论 


在 许多 情况 下 ， 我 们 会 使 用 只 有 单个 方法 的 类 
的 唯一 原因 残 是 保存 额外 的 状态 给 类 方法 使 用 。 比 
方 襄 ，UrlTemplate 类 的 唯一 目的 束 是 将 template 的 
值 保存 在 某 处 ， 这 样 就 可 以 在 open0 方 法 中 用 上 它 
fs 


按照 我 们 给 出 的 解决 方案 ， 使 用 构 套 函数 或 者 
WAEA Ea wI EME. MARN, HANE 
一 个 函数 ， 但 是 它 还 保存 着 额外 的 变量 环境 ， 使 得 
这 些 变量 可 以 在 函数 中 使 用 。 闭 包 的 核心 特性 就 是 














它 可 以 记 住 定义 财 包 时 的 环境 。 因 此 ， 在 这 个 解决 
方案 中 ，opener(O) 函 数 可 以 记 住 参数 template 的 值 ， 
然后 在 随后 的 调用 中 使 用 该 值 。 








无 论 何 时 ， 当 在 编写 代码 中 过 到 需要 附加 额外 
的 状态 给 函数 时 ， 请 考虑 使 用 财 包 。 比 起 将 函数 帮 
入 一 个 “全 副 武 波 ” 的 类 中 ， 基 于 闭 包 的 解决 方 采 通 
各 更 加 简短 也 更 加 优雅 。 





7.10 在 回调 函数 中 携 市 竹 外 的 状 
ae 


JUN 
7.10.1 问题 


我 们 正在 编写 需要 使 用 回调 函数 的 代码 《〈 比 
如 ， 事 件 处 理 例 程 、 完 成 回调 等 )， 但 是 希望 回调 
图 数 可 以 携带 额外 的 状态 以 便 在 回调 函数 内 部 使 
用 。 

















7.10.2 解决 方案 


本 市 中 所 到 的 对 回调 函数 的 应 用 可 以 在 许多 库 
和 框 染 中 找到 一 一 尤其 是 那些 和 和 异步 处 理 相 关 的 库 
和 框架 。 为 了 说 明和 测试 的 目的 ， 我 们 首先 定义 下 
面 的 函数 ， 它 会 调用 一 个 回调 函数 : 








def 


apply_async(func, args, *, callback): 
# Compute the result 


result = func(*args) 


# Invoke the callback with the result 


callback(result ) 











在 现实 世界 中 ， 类 似 这 样 的 代码 可 能 会 完成 各 
种 高 级 的 处 理 任务 ， 这 会 涉及 线程 、 进 程 和 定时 器 
等 ， 但 我 们 这 里 主要 关注 的 不 是 这 些 。 相 反 ， 我 们 
只 是 把 注意 力 集中 在 对 回调 函数 的 调用 上 。 下 面 的 








示例 展示 了 上 述 代码 应 该 如 何 使 用 : 





>>> def 


print_result(result): 
print 

('Got:', result) 

>>> def 

add(x, y): 


return 


x + y 


>>> apply_async(add, (2, 3), callback=print_result) 
Got: 5 

>>> apply_async(add, ('hello', 
Got: helloworld 

>>> 


'world'), callback=print_result) 





我 们 会 注意 到 了 消 数 print_result0) 仪 接受 一 个 单 
独 的 参数 ， 也 就 是 result。 这 里 并 没有 传 入 其 他 的 信 
轧 到 函数 中 。 有 时 候 当 我 们 希望 回调 函数 可 以 同 其 
他 变量 或 者 部 分 环境 进行 交互 时 ， 缺 乏 这 类 信息 藉 


会 带 来 问题 。 





一 种 在 回调 函数 中 携带 额外 信息 的 方法 是 使 用 
绑 定 方法 (bound-method) 而 不 是 普通 的 函数 。 比 
如 ， 下 面 这 个 类 保存 了 一 个 内 部 的 序列 号 码 ， 每 当 
接收 到 一 个 结果 时 就 递增 这 个 号 码 。 





class ResultHandler 


def 


__ init__(self): 
self.sequence = 0 
def 


handler(self, result): 


self.sequence += 1 
print 


('[{}] Got: {}'.format(self.sequence, result) ) 





要 使 用 这 个 类 ， 可 以 创建 一 个 类 实例 并 将 绑 定 
方法 handler 当 做 回调 函数 来 用 : 


r = ResultHandler() 

apply_async(add, (2, 3), callback=r.handler ) 

Got: 5 

apply_async(add, ('hello', 'world'), callback=r.handler ) 
Got: helloworld 








作为 类 的 替代 方案 ， 也 可 以 使 用 闭 包 来 捕获 状 
态 。 不 例如 下 : 





def 


make_handler(): 
sequence = 0 
def 


handler(result): 
nonlocal sequence 
sequence += 1 
print 


('[{}] Got: {}'.format(sequence, result)) 


return 


handler 











下 和 面 是 使 用 财 包 的 例子 : 


handler = make_handler() 

apply_async(add, (2, 3), callback=handler ) 

Got: 5 

apply_async(add, ('hello', 'world'), callback=hand1ler ) 
Got: helloworld 





除 此 之 外 还 有 一 种 方法 ， 有 时 候 可 以 利用 协 程 
(coroutine 〉 来 完成 同样 的 任务 : 





def 


make_handler(): 
sequence = 0 
while 


True: 
result = yield 


sequence += 1 
print 


('[{}] Got: {}'.format(sequence, result)) 


pO 


对 于 协 程 来 说 ， 可 以 使 用 它 的 send0 方 法 来 作 
为 回调 函数 ， 残 像 下 面 这 样 : 





>>> handler = make_handler() 
>>> next(handler) # Advance to the yield 


>>> apply_async(add, (2, 3), callback=handler.send) 

[1] Got: 5 

>>> apply_async(add, ('hello', 'world'), callback=handler.send) 
[2] Got: helloworld 

>>> 





最 后 但 也 同样 重要 的 是 ， 也 可 以 通过 额外 的 参 
数 在 回调 函数 中 携带 状态 ， 然 后 用 partial0) 来 处 理 参 
数 个 数 的 问题 〈 见 7.8 节 ) 。 示 例如 下 : 








>>> class SequenceNo 


def 


__ init__(self): 
a self.sequence = 0 

>>> def 

handler(result, seq): 

i seq.sequence += 1 


print 


('[{}] Got: {}'.format(seq.sequence, result) ) 


>>> seq = SequenceNo() 
>>> from functools import 


partial 

>>> apply_async(add, (2, 3), callback=partial(handler, seq=seq) ) 
[1] Got: 5 

>>> apply_async(add, ('hello', 'world'), callback=partial(handle 
[2] Got: helloworld 

>>> 





7.10.3 wrt 





基于 回调 函数 的 软件 设计 第 第 会 面临 使 代码 陷 
入 一 团 乱 豚 的 风险 。 部 分 原因 是 因为 从 代码 发 起初 
全 请 求 开始 到 回调 执行 的 这 个 过 程 中 ， 回 调 函 数 沼 
常 是 与 这 个 环境 相 脱 离 的 。 因 此 ， 在 发 起 请 求 和 处 
理 结果 之 间 的 执行 环境 就 丢失 了。 如 果 想 让 回调 函 
数 在 涉及 多 个 步 又 的 任务 处 理 中 能 够 继续 执行 ， 右 
必须 清楚 应 该 如 何 保存 和 还 原 相关 的 状态 。 


主要 有 两 种 方法 可 用 于 捕获 和 携带 状态 。 可 以 
在 关 实 例 上 携 市 状态 〈 将 状态 附加 到 绑 定 方法 
上 ) ， 也 可 以 在 闭 包 中 携带 状态 。 这 两 种 方法 中 ， 
闭 包 可 能 要 显得 更 轻 量 级 一 些 ， 而 且 由 于 闭 包 也 和 是 
由 函数 构建 的 ， 这 样 显得 会 更 加 自然。 这 两 种 方法 
































都 可 以 上 自动 捕获 历 有 正在 使 用 的 变量 。 因 此 ， 这 殴 
使 得 我 们 不 必 担 心 哪 个 具体 的 状态 需要 你 存 起 来 
《根据 代码 目 动 决 定 哪些 怖 要 保存 ) 。 


如 果 使 用 闭 包 ， 那 么 需要 对 可 变 变 量 多 加 留 
意 。 在 给 出 的 解决 方案 中 ，nonlocal 声 明 用 来 表示 
变量 sequence 是 在 回调 函数 中 修改 的 。 没 有 这 个 声 
明 ， 将 得 到 错误 提示 。 


将 协 程 用 作 回 调 函 数 的 有 趣 之 处 在 于 这 种 方式 
ALKA EL FT RRA. MSP EG, Dh 
程 甚 至 更 为 清晰 ， 因 为 这 里 只 出 现 了 一 个 单独 的 函 
数 。 此 外 ， 变 量 都 可 以 目 由 地 进行 修改 ， 不 必 担 心 
nonlocal 声 明 。 可 能 存在 的 缺点 在 于 人 们 对 协 程 的 
理解 程度 不 如 其 他 的 Python 特性 。 使 用 协 程 时 还 有 
几 个 小 技巧 需要 掌握 ， 比 如 在 使 用 协 程 前 需要 先 对 
其 调用 一 次 next()， 这 在 实践 中 常 当 容易 态 记 。 不 
过 ， 协 程 还 有 其 他 的 潜在 用 途 ， 比 如 定义 内 联 的 回 
调 函 数 〈 在 下 一 节 中 讲解 ) 。 


如 果 所 有 需要 做 的 就 是 在 回调 函数 中 传 入 额外 
的 值 ， 那 么 最 后 提 到 的 那个 有 关 partialO 的 技术 是 很 
党 用 的 。 有 时 候 我 们 也 会 看 到 用 lambda 表 达 陈 来 实 
现 同样 的 功能 : 


>>> apply_async(add, (2, 3), callback=lambda 
































r: handler(r, seq)) 
[1] Got: 5 
>>> 








要 碍 看 更 多 的 示例 请 参见 7.8 节 。 在 那 一 节 中 我 
们 展示 了 如 何 利用 partial0 来 修改 函数 的 参数 签名 。 


7.11 内 联 回调 函数 
7.11.1 问题 


我 们 正在 编写 使 用 回调 函数 的 代码 ， 但 是 担心 
小 型 函数 在 代码 中 大 肆 泛 小， 程序 的 控制 流 会 因此 
而 失控 。 我 们 希望 能 有 某 种 方法 使 代码 看 起 来 更 像 
一 般 的 过 才 程 式 步 TR o 

















7.11.2 解决 方案 


我 们 可 以 通过 生成 融和 协 程 将 回调 函数 内 联 到 
一 个 函数 中 。 为 了 了 说明， 假设 有 一 个 函数 会 按照 下 
面 的 方式 调用 回调 函 效 《〈 参 见 7.10 闻 ) : 











def 


apply_async(func, args, *, callback): 
# Compute the result 


result = func(*args) 


# Invoke the callback with the result 


callback(result ) 


Le 


现在 看 看 接 下 来 的 文 持 代 码 ， 这 里 涉及 一 个 
Async 类 和 inlined_async 装 饰 器 : 








from queue import 


Queue 
from functools import 


wraps 


class Async 


def 


__init__(self, func, args): 
self.func = func 
self.args = args 


def 


inlined_async(func): 
@wraps(func) 
def 


wrapper(*args): 
f = func(*args) 
result_queue = Queue() 
result_queue.put(None) 
while 


result = result_queue.get() 
try 


a = f.send(result) 
apply_async(a.func, a.args, callback=result_queu 
except StopIteration 


return 





这 两 段 代码 允许 我 们 通过 yield 语 句 将 回调 函数 
变 为 内 联 式 的 ， 示 例如 下 : 








def 


add(x, y): 
return 

x+y 

@inlined_async 


def 


test(): 
r = yield 


Async(add, (2, 3)) 
print 


(r) 
r = yield 


Async(add, ('hello', 'world')) 
print 


range(10): 
r = yield 


Async(add, (n, n)) 
print 


(r) 


print 


('Goodbye' ) 
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除了 那个 特殊 的 装饰 项 和 对 yield 的 使 用 之 外 ， 
我 们 会 发 现代 码 中 根本 束 没 有 出 现 回调 函数 (它们 





只 是 隐 羧 在 幕后 了 ) 。 
7.11.3 ”讨论 


本 贡 将 芮 正 考验 一 下 读者 对 回调 函数 、 生 成 大 
以 及 程序 控制 流 方面 的 掌控 情况 。 


首先 ， 在 涉及 回调 函数 的 代码 中 ， 问 题 的 关键 
就 在 于 当前 的 计算 会 被 持 起， 然后 在 稍 后 某 个 时 刻 
再 得 到 恢复 。 当 计算 得 到 恢复 时 ， 回 调 函 数 将 得 以 
继续 处 理 执行 。 示 例 中 的 apply_async(0) 函 数 对 执行 
回调 函数 的 关键 部 分 做 了 简单 的 说 明 ， 尽 管 在 现实 
ee ee eee eee 
列 程 等 ) 。 


将 计算 挂 起 之 后 再 恢复 ， 这 个 思想 非常 日 然 地 
同 生 成 器 函数 对 应 了 起 来 。 具 体 来 说 就 是 yield 操 作 




















使 得 生成 占 函 数 产 生出 一 个 值 然后 就 挂 起 ， 后 续 调 
用 生成 占 的 _next 0 或 者 send() 方 法 会 使 得 它 再 次 
局 动 。 


鉴于 此 ， 本 节 的 核心 就 在 inline_async() 装 饰 絮 
为 数 中 。 关 键 点 束 是 对 于 生成 器 函数 的 所 有 yield 语 
句 装 饰 器 都 会 逐条 进行 跟踪 ， 一 次 一 个 。 为 了 做 到 
这 点 ， 我 们 创建 了 一 个 队列 用 来 保存 结果 ， 初 始 时 
用 None 来 填充 。 之 后 通过 循环 将 结果 从 队列 中 取 
出 ， 然 后 发 送 给 生成 器 ， 这 样 就 会 产生 下 一 次 
yield， 此 时 就 会 接收 到 Async 的 实例 。 然 后 在 循环 
中 查找 函数 和 参数 ， 开 始 异 步 计算 apply_async()。 
但 是 ， 这 个 过 程 中 最 为 隐蔽 的 部 分 贺 在 于 这 里 没有 
使 用 普通 的 回调 函数 ， 回 调 过 程 被 设 定 到 队列 的 
put0 方 法 中 了 。 


此 时 应 该 可 以 精确 描述 到 撒 都 发 生 了 些 什 么 。 
主 循环 会 迅速 回 到 顶层 ， 并 在 队列 中 执行 一 个 getO) 
操作 。 如 末 有 数据 存在 ， 那 它 束 一 定 是 由 putO 回 调 
产生 的 结果 。 如 果 什 么 都 没有 ， 操 作 束 会 阻 枚 ， 等 
竺 之 后 某 个 时 刻 会 有 绪 果 到 来 。 至 于 结果 要 如 何 产 
生 ， 这 取决 于 apply_async(0) 函 数 的 实现 。 


如 果 对 这 些 狼 狂 的 东西 能 合 正 党 工作 抱 有 怀 
疑 ， 可 以 结合 多 进程 库 让 异步 操作 在 单独 的 进程 中 
执行 ， 以 此 测试 该 方 采 : 




















if 


_hname == ' main__': 
import multiprocessing 


pool = multiprocessing. Pool( ) 
apply_async = pool.apply_async 


# Run the test function 


test() 





我 们 会 发 现 这 个 方案 的 确 能 正常 工作 ， 但 是 要 
理 清 这 其 中 的 控制 流程 可 能 需要 喝 掉 不 少 咖啡 了 。 


将 精巧 的 控制 流 隐 蕊 在 生成 器 函数 之 后 ， 这 种 
做 法 可 以 在 标准 库 以 及 第 三 方 包 中 找到 。 比 如 说 ， 
contextlib 模 块 中 的 @contextmanager 装 饰品 也 使 用 
了 类 似 的 令 人 费解 的 技巧 ， 将 上 下 文 管理 器 的 入 口 
点 和 出 口 点 通过 一 个 yield 语 句 粘 合 在 了 一 起 。 著 名 
的 Twisted 库 Chttp://twistedmatrix.com ) 中 也 有 着 
类 似 的 内 联 回 调 技巧 。 











7.12 访问 定义 在 闭 包 内 的 变量 


7.12.1 问题 





我 们 布 望 通过 函数 来 扩展 闭 包 ， 使 得 在 闭 包 内 
层 定义 的 变量 可 以 被 访问 和 修改 。 


7.12.2 ”解决 方案 


一 般 来 说 ， 在 闭 包 内 层 定 义 的 变量 对 于 外 界 来 
说 完全 是 隔离 的 。 但 是 ， 可 以 通过 编写 存 取 函 数 
(accessor function， 即 gettersetter 方 法 ) 并 将 它们 
作为 函数 属性 附加 到 闭 包 上 来 提供 对 内 层 变 量 的 访 
问 支 持 。 示 例如 下 : 

















def 


sample(): 
n= 0 


# Closure function 


('n=', n) 


# Accessor methods for n 


def 
get_n(): 
return 
n 
def 


set_n(value): 
nonlocal n 
n = value 


# Attach as function attributes 


func.get_n = get_n 
func.set_n = set_n 
return 

func 








下 面 是 使 用 这 份 代码 的 示例 : 


>>> f = sample() 
>>> f() 

n= 0 

>>> f.set_n(10) 
>>> f() 








7.12.3 ”讨论 








这 里 主要 用 到 了 两 个 特性 使 得 本 节 讨 论 的 技术 
得 以 成 功 实 施 。 首 先 ，nonlocal 声 明 使 得 编写 函数 
来 修改 内 层 变 量 成 为 可 能 。 其 次 ， 兄 数 属性 能 够 将 
存 取 函数 以 直接 的 方式 附加 到 闭 包 函 数 上 ， 它 们 工 
作 起 来 很 像 实例 的 方法 (尽管 这 里 并 没有 涉及 
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成 其实 例 。 我 们 所 要 做 的 融 是 将 内 层 函 数 捞 贝 到 一 
个 实例 的 字典 中 然后 将 它 返 回 。 示 例如 下 : 





import sys 
class ClosureInstance 
def 


__init__(self, locals=None): 
i 


locals is 


None: 


locals = sys._getframe(1).f_locals 


# Update instance dictionary with callables 


self.__dict__.update((key,value) for 


key, value in 


locals.items() 
if 


callable(value) ) 


# Redirect special methods 


def 


len__(self): 
return 


self.__dict__['__len__']() 





# Example use 


def 


Stack(): 


push(item): 
items.append(item) 


def 


pop(): 
return 


items.pop() 


def 


__len__(): 
return 


len(items) 
return 


ClosureInstance() 





下 面 的 交互 式 会 话说 明了 这 种 方法 确实 能 完成 





>>> S = Stack() 

>>> s 

<__main__.ClosureInstance object at 0x10069ed10> 
>>> s.push(10) 

>>> s.push(20) 

>>> s.push('Hello' ) 

>>> len(s) 








有 趣 的 是 ， 这 份 代 码 运 行 起 来 比 使 用 一 个 普通 
的 类 定义 要 稍微 快 一 些 。 比 如 ， 我 们 可 能 会 用 下 面 
这 个 类 来 做 对 比 测试 : 





class Stack2 


def 


__ init__(self): 
self.items = [] 
def 
push(self, item): 
self.items.append(item) 
def 


pop(self): 
return 


self.items.pop() 


def 


len__(self): 
return 


len(self.items) 





如 果 进 行 对 比 测试 ， 将 得 到 类 似 如 下 的 结果 : 


>>> from timeit import 


timeit 
>>> # Test involving closures 


>>> s = Stack() 
>>> Ce s.push(1);s.pop()', 'from _ main _ import s') 
0.9874754269840196 


>>> # Test involving a class 


>>> s = Stack2() 

>>> timeit('s.push(1);s.pop()', 'from __main__ import s') 
1.0707052160287276 

>>> 





我 们 可 以 看 到 ， 采 用 闭 包 的 版 本 要 快 大 约 
8%。 测 试 中 的 大 部 分 时 间 都 花 在 对 实例 变量 的 二 
接 访 问 上 ， 财 包 要 更 快 一 些 ， 这 是 因为 不 用 涉及 后 
外 的 self 变 量 。 

















Raymond Herringer 在 这 个 思路 的 基础 上 设计 出 
了 一 种 更 加 “恐怖 ”的 变种 。 但 是 ， 在 上 自己 的 代码 中 
应 该 对 这 种 奇 技 淫 巧 持 齐 慎 的 态度 。 请 注意 ， 相 比 
一 个 真正 的 类 ， 这 种 方法 是 相当 怪异 的 。 比 如 ， 像 
继承 、 属 性 、 描 述 符 或 者 类 方法 这 样 的 主要 特性 在 
这 种 方法 中 都 是 无 法 使 用 的 。 我 们 还 需要 玩 一 些 花 
招 才 能 让 特殊 方法 正常 工作 〈 比 如， 参考 
ClosurelInstance 中 对 len _ 0 的 实现 )〉。 


最 后 ， 这 么 做 会 使 得 阅读 你 代码 的 人 犯 糊涂 。 
他 们 会 想 知 道 这 么 做 看 起 来 和 一 个 普通 的 类 定义 相 
比 有 什么 区 别 〈( 当 然 了 ， 他 们 也 想 知 道 为 什么 这 么 
做 会 运行 的 更 快 一 些 ) 。 尽 管 如 此 ， 这 仍然 是 个 有 
趣 的 例子 ， 它 告诉 我 们 对 团 包 内 部 提供 访问 机 制 能 
够 实现 出 什么 样 的 功能 。 


从 全 局 的 角度 考虑 ， 为 团 包 增 加 方法 可 能 会 有 
看 更 多 的 实际 用 途 ， 比 如 我 们 想 重 置 内 部 状态 、 刷 
新 缓冲 区 、 清 除 缓存 或 者 实现 菏 种 形式 的 反馈 机 制 


(feedback mechanism) 。 




















第 8 章 RE WR 


本 章 的 重点 是 为 大 家 介绍 一 些 与 类 定义 相关 的 
常见 编程 模式 。 主 题 包括 让 对 象 文 持 常 见 的 Python 
特性 、 特 殊 方 法 的 使 用 、 封 装 、 继 承 、 内 存 管理 以 
及 一 些 有 用 的 设计 模式 。 








8.1 修改 实例 的 字符 串 表 示 
8.1.1 问题 


我 们 想 \ 印 实 例 所 产生 的 输出 ， 使 输出 结 
朵 能 更 有 意义 


8.1.2 ”解决 方案 


要 修改 实例 的 字符 串 表 示 ， 可 以 通过 定义 
str_0 和 _ repr_ 0) 方法 来 实现 。 示 例如 下 : 














class Pair 


def 
__init__(self, x, y): 
self.x 
__repr__(self): 


return 


"Pair({0O.x!r}, {0.y!r})'.format(self) 
def 


__str__(self): 
return 


'({0.x!s}, {O0.y!s})'.format(self) 





特殊 方法 _repr_ 0 返回 的 是 实例 的 代码 表示 
(code representation) ， 通 常 可 以 用 它 返 回 的 字符 
串 文 本 来 重新 创建 这 个 实例 由 。 内 建 的 repr0) 函 数 
可 以 用 来 返回 这 个 字符 串 ， 当 缺少 交互 式 解 释 环 境 
时 可 用 它 来 检查 实例 的 值 。 特 殊 方 法 _ str_ 0 将 实 
例 转换 为 一 个 字符 串 ， 这 也 是 由 str0 和 PrintO 函 数 所 
产生 的 输出 。 示 例如 下 : 


>>> p = Pair(3, 4) 

>>> p 

Pair(3, 4) # __repr__() output 
>>> print 





# _str_() output 





本 节 给 出 的 实现 中 也 展示 了 在 进行 格式 化 输出 
时 应 该 如 何 使 用 不 同 的 字符 串 表 示 。 尤 其 是 ， 特 殊 
的 格式 化 代码 !r 表 示 应 该 使 用 _repr_ 0 的 输出 ， 而 
不 是 默认 的 _ str_()。 我 们 可 以 在 前 文 给 出 的 Pair 类 
上 做 做 实验 : 


>>> p = Pair(3, 4) 
>>> print 


('p is {O!r}'.format(p)) 
p is Pair(3, 4) 
>>> print 


('p is {0}'.format(p) ) 
p is (3, 4) 





8.1.3 ”讨论 


定义 _repr_ 0 和 str_ Oi i AA A hi 
程 实践 ， 因 为 这 么 做 可 以 简化 调试 过 程 和 实例 的 输 
出 。 比 方 说 ， 我 们 只 用 通过 打印 实例 ， 程 序 员 残 能 
了 解 到 更 多 有 关 这 个 实例 内 容 的 有 用 信息 。 


对 于 _repr_0， 标 准 的 做 法 是 让 它 产生 的 字 
符 串 文 本 能 够 满足 eval(reprCoO) == x。 如 果 不 可 能 ; 
到 或 者 说 不 希望 有 这 种 行为 ， 那么 通常 就 让 它 产 生 
N 并 且 以 < 和 > 括 起 来 。 示 例 
HF: 











>>> f = open('file.dat') 
>>> f 
<_io.TextIOwrapper name='file.dat' mode='r' encoding='UTF-8'> 


>>> 





如 果 没 有 定义 _str OO， 那么 就 用 _repr 0 的 
输出 当做 备份 。 


解决 方案 中 对 format() 函 数 的 使 用 看 起 来 似乎 
有 点 意思 。 格 式 化 代码 {0.x} 用 来 指 代 参数 0 的 x 属 
性 。 因 此 在 下 面 的 函数 中 ，0 实 际 上 就 代表 实例 
self: 





def 


__repr__(self): 


return 


"Pair({0O.x!r}, {0O.y!r})'.format(self) 





这 个 实现 还 可 以 有 为 外 一 种 方式 ， 可 以 使 用 % 
操作 符 和 下 面 的 代码 来 完成 : 


__repr__(self): 
return 


'Pair(%r, %r)' % (self.x, self.y) 





8.2 日 定义 字符 串 的 输出 格式 
8.2.1 问题 


我 们 想 让 对 象 通过 format() 函 数 和 字符 串 方 法 
来 文 持 目 定 义 的 输出 格式 。 





8.2.2 ”解决 方案 


要 上 自 定 义 字 符 串 的 输出 格式 ， 可 以 在 类 中 定义 
_ foma (0 方法。 示例 如 下 : 








_formats = { 


'ymd' : '{d.year}-{d.month}-{d.day}', 
'mdy' : '{d.month}/{d.day}/{d.year}', 
‘dmy' : '{d.day}/{d.month}/{d.year}' 
} 


class Date 


def 


__init__(self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 


def 


__format__(self, code): 


if 
code == '': 
code = 'ymd' 
fmt = _formats[code] 
return 


fmt .format (d=self ) 





Date 关 的 实例 现在 可 以 文 持 如 下 的 格式 化 操作 
ie 


>>> d = Date(2012, 12, 21) 

>>> format(d) 

'2012-12-21' 

>>> format(d, 'mdy') 

'12/21/2012' 

>>> 'The date is {:ymd}'.format(d) 
'The date is 2012-12-21' 


>>> 'The date is {:mdy}'.format(d) 
'The date is 12/21/2012' 
>>> 





8.2.3 ”讨论 





_ format (方法 在 Python 的 字符 串 格式 化 功能 
中 提供 了 一 个 钩子 。 需 要 重点 强调 的 是 ， 对 格式 化 
代码 的 解释 完全 取决 于 类 本 号 。 因 此 ， 格 却 化 代码 
几乎 可 以 为 任何 形式 。 举 例 来 说 ， 考 虑 下 面 的 








datetime 模 块 的 示例 : 
>>> from datetime import 


date 

>>> d = date(2012, 12, 21) 
>>> format(d) 

'2012-12-21' 


>>> format(d,'%A, %B %d, %Y') 

‘Friday, December 21, 2012' 

>>> 'The end is {:%d %b %Y}. Goodbye'.format(d) 
'The end is 21 Dec 2012. Goodbye' 


>>> 





对 于 内 建 类 型 来 说 ， 有 一 些 标准 的 格式 化 转换 
形式 。 请 参阅 string 模 块 的 文档 (http://docs. 
python.org/3/library/string.html ) 以 获得 正式 的 规 


8.3 ”让 对 象 文 持 上 下 文 管理 协议 
8.3.1 问题 
我 们 想 让 对 象 文 持 上 下 文 管理 协议 〈context- 


management protocol， 通 过 with 语句 触发 ) 。 
8.3.2 ”解决 方案 


要 让 对 象 能 够 兼容 with 语句 ， 需 要 实现 
”enter (和 ”exit 0 方法 。 比 方 说 ， 考 虑 下 面 这 
个 表示 网 络 连接 的 类 : 








from socket import 


socket, AF_INET, SOCK_STREAM 


class LazyConnection 


def 


__init__(self, address, family=AF_INET, type=SOCK_STREAM): 
self.address = address 
self.family = AF_INET 
self.type = SOCK_STREAM 

self.sock = None 


def 


__enter__(self): 
if 


self.sock is not 


None: 
raise RuntimeError 


('Already connected' ) 


self.sock = socket(self.family, self.type) 
self.sock.connect(self.address) 
return 


self .sock 
def 
__exit__(self, exc_ty, exc_val, tb): 


self.sock.close() 
self.sock = None 








APARNA TY BE ee AAS — ZR RE Re, (EL 
是 实际 上 在 初始 状态 下 它 并 不 会 做 任何 事情 〈 比 
如 ， 它 并 不 会 建立 一 条 连接 ) 。 相 反 ， 网 络 连接 是 





通过 with 语 句 来 建 并 和 关闭 的 (这 正 是 上 下 文 管理 
的 基本 需求 ) 。 示 例如 下 : 


from functools import 





partial 


conn = LazyConnection(('www.python.org', 80)) 
# Connection closed 


with 


conn as 


# conn.__enter__() executes: connection open 


s.send(b'GET /index.html HTTP/1.0\r\n 


') 


s.send(b'Host: www.python.org\r\n 


') 
s.send(b'\r\n 


') 
resp = b''.join(iter(partial(s.recv, 8192), b'')) 
# conn.__exit__() executes: connection closed 





8.3.3 pric 


要 编写 一 个 上 下 文 管理 融 ， 其 背后 的 主要 原则 








就是 我 们 编写 的 代码 需要 包含 在 由 with 语 句 定 义 的 
代码 块 中 。 当 遇 到 with 语句 时 ，_ enter_ 0) 方法 首 
先 被 触发 执行 。_enter_0 的 返回 值 (如 果 有 的 
Th) 被 放置 在 由 as 限 定 的 变量 当中 。 之 后 开始 执行 
with 代 人 码 块 中 的 语句 。 最 后 ，__exit_() 方 法 被 触发 
来 执行 清理 工作 。 


这 种 形式 的 控制 流 与 with 语 句 块 中 发 生 了 什么 
情况 是 没有 关联 的 ， 出 现 异 常 时 也 是 如 此 。 实 际 
E, exit 0 方法 的 三 个 参数 束 包 含 了 异常 类 型 、 
值 和 对 挂 起 异常 的 退 调 《如果 出 现 异 第 的 话 ) 。 
exit (0) 方 法 可 以 选择 以 某 种 方式 来 使 用 异 篆 信 
轧 ， 或 者 什么 也 不 干 直接 忽略 它 并 返回 None 作 为 结 
果 。 如 果 ”exit (0) 返回 True， 异 和 常 束 会 被 清理 干 
‘ey 好 像 什么 都 没 发 生 过 一 样 ， 而 程序 也 会 立刻 继 
续 执 行 with 语句 块 之 后 的 代码 。 


这 项 搁 术 有 一 个 微妙 的 地 方 ， 那 束 是 
LazyConnection 类 是 否 可 以 通过 多 个 with 语 句 以 骸 
套 的 方式 使 用 socket 连 接 。 正 如 我 们 给 出 的 代码 那 
样 ， 一 次 只 允许 创建 一 条 单独 的 socket 连 接 。 当 
socket 己 经 在 使 用 时 ， 如 果 尝 试 重复 使 用 with 语 句 
束 会 产生 异常 。 我 们 可 以 对 这 个 实现 稍 做 修改 来 绕 
过 这 个 限制 ， 示 例如 下 : 


from socket import 


























socket, AF_INET, SOCK_STREAM 


class LazyConnection 


def 


__init__(self, address, family=AF_INET, type=SOCK_STREAM) : 
self.address = address 
self.family = AF_INET 
self.type = SOCK_STREAM 
self.connections = [] 


def 
__enter__(self): 
sock = socket(self.family, self.type) 
sock.connect(self.address) 
self.connections.append(sock) 
return 
sock 
def 
__exit__(self, exc_ty, exc_val, tb): 


self.connections.pop().close() 


# Example use 


from functools import 


partial 


conn = LazyConnection(('www.python.org', 80)) 


with 
conn as 
s1: 

with 
conn as 


s2: 


# s1 and s2 are independent sockets 





在 第 二 个 版 本 中 ，LazyConnection 成 了 一 个 专 
门生 产 网 络 连接 的 工厂 类 。 在 内 部 实现 中 ， 我 们 把 
一 个 列表 当成 栈 使 用 来 保存 连接 。 每 当 __enter_( 
执行 时 ， 由 它 产生 一 个 新 的 连接 并 添加 a 到 栈 中 。 而 
exit (0) 方 法 只 是 简单 地 将 最 近 加 入 的 那个 连接 从 
栈 中 弹出 并 关闭 它 。 这 个 修改 很 微不足道 ， 但 是 这 





样 就 可 以 允许 用 藤 套 式 的 with 语 句 一 次 创建 出 多 个 
连接 了 。 
上 下 文 管理 旧 最 常用 在 需要 省 理 类 似 文件 、 网 


络 连 接 和 锁 这 样 的 资源 的 程序 中 。 这 些 资 源 的 关键 
扩 在 于 它们 必须 显 式 地 进行 关闭 或 释放 才能 正确 工 














作 。 例 如 ， 如 果 获 得 了 一 个 锁 ， 之 后 承 必须 确保 要 
PIE, FTA EAA XU. ESCH 
_enter_0 和 _ exit_(0， 并 且 利 用 with 语句 来 触 

发 ， 这 类 问题 就 可 以 很 容易 地 避免 了 了。 因为 
exit (方法 中 的 清理 代码 无 论 如 何 都 会 保证 运行 
Hy 


有 天 上下文 管理 器 的 另 一 种 构想 可 以 在 
contextmanager 模 块 中 找到 ， 请 参阅 9.22 节 。 本 贡 示 
例 的 线程 安全 版 本 可 以 在 12.6 节 中 找到 。 


8.4 当 创 建 大 量 实例 时 如 何 节 和 省 内 
T7 
8.4.1 问题 


我 们 的 程序 创建 了 大 量 的 《比如 百 万 级 ) K 
例 ， 为 此 占用 了 大 量 的 内 存 。 


8.4.2 ”解雇 方案 
对 于 那些 主要 用 作 简单 数据 结构 的 类 ， 通 常 可 


以 在 类 定义 中 增加 _ slot 属性 ， 以 此 来 大 量 减 少 
对 内 存 的 使 用 。 示 例如 下 : 








class Date 


Slots = ['year', 'month', 'day'] 
def 


__init__(self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 





当 定 义 了 __slots_ 属性 时 ，Python 束 会 针对 实 
例 采 用 一 种 更 加 紧凑 的 内 部 表示 。 不 再 让 每 个 实例 
都 创建 一 个 _dict_ 字 典 ， 现 在 的 实例 是 围绕 着 一 
个 固定 长 度 的 小 型 数组 来 构建 的 ， 这 和 一 个 元 组 或 
者 列表 很 相似 。 在 _ slots_ 中 列 出 的 属性 名 会 在 内 
部 映射 到 这 个 数组 的 特定 索引 上 。 使 用 _slots_ 市 
来 的 副作用 是 我 们 没 法 再 对 实例 添加 任何 新 的 属性 
T. 我 们 被 限制 为 只 允许 使 用 _slots “中 列 出 的 
那些 属性 名 。 























8.4.3 ”讨论 


使 用 _slots “节省 下 来 的 内 存根 据 创建 的 实例 
数量 以 及 保存 的 属性 类 型 而 有 所 不 同 。 但 是 ， 一 般 
来 说 使 用 的 内 存量 相当 与 将 数据 保存 在 元 组 中 。 为 
了 有 一 个 直观 的 感受 ， 我 们 举 个 例子 : 在 64 位 版 本 
的 Python 中 ， 不 使 用 _slots 保存 一 个 单独 的 Date 
实例 ， 则 需要 占用 428 字 市 的 内 存 。 如 果 定 义 了 
_slots ”， 内 存 用 量 将 下 降 到 156 字 节 。 在 一 个 需 
要 同时 处 理 大量 Date 实 例 的 程序 中 ， 这 将 显 善 减少 
总 的 内 存 用 量 。 


KE slots 看 起 来 似乎 是 一 个 非 第 有 用 的 特 
性 ， 但 是 在 大 部 分 代码 中 都 应 该 尽量 别 使 用 它 。 
Python 中 有 许多 部 分 都 依赖 于 传统 的 基于 字典 的 实 
Me ISh EXT slots “属性 的 类 不 文 持 某 些 特 
































定 的 功能 ， 比 如 多 重 继承 。 就 大 部 分 情况 而 言 ， 我 
们 应 该 只 针对 那些 在 程序 中 被 当做 数据 结构 而 频繁 
使 用 的 类 上 采用 __slots_ 技法 例如， 如 时 你 的 程 
序 创建 了 上 百 万 个 特定 的 类 实例 )〉。 


KF _ slots ”有 一 个 常见 的 误解 ， 那 就 是 这 是 
一 种 封装 工具 ， 可 以 阻止 用 户 为 实例 添加 新 的 属 
性 。 尽 管 这 的 确 是 使 用 _slots “所 市 来 的 副作用 ， 
但 这 绝 不 是 使 用 _slots_ 的 原本 意图 。 相 反 ， 人 们 
一 直 以 来 都 把 _slots ”当做 一 种 优化 工具 。 


























8.5 ”将 名 称 封装 到 类 中 
8.5.1 问题 


我 们 想 将 “私有 ”数据 封装 到 类 的 实例 上 ， 但 是 
叉 需 要 考虑 到 Python 缺乏 对 属性 的 访问 控制 问题 。 


8.5.2 ”解决 方案 


与 其 依赖 语言 特性 来 封 净 数据，Python 程 序 员 
们 更 期 望 通过 特定 的 命名 规则 来 表达 出 对 数据 和 方 
法 的 用 途 。 第 一 个 规则 是 任何 以 单 下 划 线 (_) 开 
头 的 名 字 应 该 总 是 裤 认 为 只 属于 内 部 实现 。 比 如 ; 











class A 


def 


__ init__(self): 
self._internal = 0 # An internal attribute 


self.public = 1 # A public attribute 


def 


public_method(self): 


A public method 


def 


_internal_method(self): 





Python 本 吴 并 不 会 阻止 其 他 人 访问 内 部 名 称 。 





但 是 如 果 有 人 这 么 做 了 ， 则 被 认为 是 粗鲁 的 ， 而 且 
可 能 导致 产生 出 脆弱 不 堪 的 代码 。 应 访 要 提 到 的 
是 ， 以 下 划 线 打头 的 标识 也 可 用 插 异 块 名 称 和 模块 
级 的 函数 中 。 比 如 ， 如 果 见 到 有 模块 名 以 下 划 线 打 
头 〈 例 如 ，_socket) ， 那 么 它 就 属于 内 部 实现 。 同 
样 地 ， 模 块 级 的 函数 比如 sys._getframe() 使 用 起 来 也 

要 格外 小 心 。 


我 们 应 该 在 类 定义 中 也 见 到 过 以 双 下 划 线 
CO 打头 的 名 称 。 例 如 : 


def 


__ init__(self): 
self. _ private = 0 
def 


__private_method(self): 


def 


public_method(self): 


self.__private_method() 





以 双 下 划 线 打头 的 名 称 会 导致 出 现 名 称 重 整 
(name mangling) 的 行为 。 有 基体 来 说 残 是 上 面 这 个 
类 中 的 私有 属性 会 被 分 别 重 命名 为 _B_private 和 
_B_private_method。 此 时 你 可 能 会 问 ， 类 似 这 样 
的 名 称 重 整 其 目的 何在 ?答案 就是 为 了 继承 一 一 这 
样 的 属性 不 能 通过 继承 而 窗 产 。 示 例如 下 : 














class C 


(B): 
def 


__ init__(self): 
super().__init__() 
self. _ private = 1 # Does not override B.__priv 


# Does not override B.__private_method() 


def 


__private_method(self): 





这 里 ， 私 有 名 称 _private 和 __private_method 会 





被 重 命名 为 _C_private 和 _C__private_method， 这 
和 基 类 B 中 的 重 整 名 称 不 同 。 





8.5.3 ”讨论 


“私有 ”属性 存在 两 种 不 同 的 命名 规则 《〈 单 下 划 
线 和 双 下 划 线 ) ， 这 一 事实 引出 了 一 个 显而易见 的 
问题 ， 应 该 使 用 哪 种 风格 ? 对 于 大 部 分 代码 而 言 ， 
我 们 应 该 让 非 公 有 名 称 以 单 下 划 线 开头 。 但 是 ， 如 
末 我 们 知道 代码 中 会 涉及 子 类 化 处 理 ， 而 且 有 些 内 
部 属性 应 该 对 子 类 进行 隐藏 ， 那 么 此 时 束 应 该 使 用 
双 下 划 线 开头 。 

















此 外 还 应 该 指出 的 是 ， 有 时候 可 能 想 定 义 一 个 
变量 ， 但 是 名 称 可 能 会 和 保留 字 产 生 冲 突 。 基 于 
此 ， 应 该 在 名 称 最 后 加 上 一 个 单 下 划 线 以 示 区 别 。 
比如 : 











lambda = 2.0 # Trailing _ to avoid clash with lambda keywort 





这 里 不 采用 以 下 划 线 开头 的 原因 是 避免 在 使 用 
意图 上 友 生 混 清 例如， 如果 采用 下 划 线 开头 的 形 
式 ， 那 么 可 能 会 被 解释 为 这 么 做 是 为 了 避免 名 称 冲 
突 ， 而 不 是 作为 私有 数据 的 标志 )〉 。 在 名 称 尾部 加 
一 个 里 下 划 线 残 能 解决 这 个 问题 。 








8.6 ”创建 可 官 理 的 属性 


8.6.1 问题 





在 对 实例 属性 的 获取 和 设 定 上 ， 我 们 希望 增加 
一 些 额外 的 处 理 过 程 〈《 比 如 类 型 检查 或 者 验证 ) 。 


8.6.2 ”解决 方案 
要 自 定义 对 属性 的 访问 ， 一 种 简单 的 方式 是 将 


其 定义 为 property H 。 比 如 说 ， 下 面 的 代码 定义 了 
一 个 property， 增 加 了 对 属性 的 类 型 检查 : 











class Person 


def 
__init__(self, first_name): 
self.first_name = first_name 


# Getter function 


@property 
def 


first_name(self): 
return 


self. _first_name 


# Setter function 


@first_name.setter 
def 


first_name(self, value): 
if not 


isinstance(value, str): 
raise TypeError 


('Expected a string') 
self. first name = value 


# Deleter function (optional) 


@first_name.deleter 
def 


first_name(self): 
raise AttributeError 


("Can't delete attribute") 








在 上 述 代 码 中 ， 一 共有 三 个 互相 关联 的 方法 ， 
它们 必须 有 着 相同 的 名 称 。 第 一 个 方法 是 一 个 getter 


K% J HŽ firstname XX I property) tE. F% 
他 两 个 方法 将 可 选 的 Setter 和 deleter 函 数 附 加 到 了 
first_ name 属 性 上 。 和 需要 重点 强调 的 是 ， 除 非 
first_name 已 经 通过 @property 的 方式 定义 为 了 
property 属 性 ， 人 否则 是 不 能 定义 @first_name.setter 和 
(@first_name.deleter 装 饰 器 的 。 


property 的 重要 特性 束 是 它 看 起 来 就 像 一 个 普 
通 的 属性 ， 但 是 根据 访问 它 的 不 同方 式 ， 会 上 自动 触 
发 getter、Ssetter 以 及 deleter 方 法 。 示 例如 下 : 




















>>> a = Person('Guido' ) 


>>> a.first_name # Calls the getter 
"Guido' 
>>> a.first_name = 42 # Calls the setter 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "prop.py", line 14, in first_name 
raise TypeError 


('Expected a string') 
TypeError: Expected a string 
>>> del 


a.first_name 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

AttributeError: can't delete attribute 

>>> 


pO 


当 我 们 实现 一 个 property 时 ， 底 层 的 数据 (如 

果 有 的 话 ) 仍然 需要 被 保存 到 某 个 地 方 。 因 此 在 get 
和 和 set 方法 a ， 可 以 看 到 我 们 是 直接 对 _first_name 进 
行 操 作 的 ， 这 束 是 数据 实际 保存 的 地 方 。 此 外 ， 你 

可 能 会 问 为 什么 在 _init_ (0) 方 法 中 设 定 的 是 
self.first_nameliy A^ self. first name 呢 ? 在 这 个 例 
子 中 ，property 的 全 部 意义 束 在 于 我 们 设置 属性 时 
可 以 执行 类 型 检查 。 因 此 ， 很 有 可 能 你 想 让 这 种 类 

型 检查 在 初始 化 的 时 候 也 可 以 进行 。 因 此 ， 在 
int 0 中 设置 self.first_name， 实 际 上 会 调用 到 
setter 方 法 (| 因此 就 会 跳 过 self.first_name 而 去 访问 


self. first name) 。 


对 于 已 经 存在 的 get 和 set 方 法 ， 同 样 也 可 以 将 
它们 定义 为 property。 示 例如 下 : 

















class Person 


def 


__ init__(self, first_name): 
self.set_first_name(first_name) 


# Getter function 


def 


get_first_name(self): 
return 


self. _first_name 


# Setter function 


def 


set_first_name(self, value): 
if not 


isinstance(value, str): 
raise TypeError 


('Expected a string') 


self. first name = value 


# Deleter function (optional) 


def 


del_first_name(self): 
raise AttributeError 


("Can't delete attribute") 


# Make a property from existing get/set methods 


name = property(get_first_name, set_first_name, del_first_na 





8.6.3 ”讨论 


property 属 性 实际 上 就 是 把 一 系列 的 方法 绑 定 
到 一 起 。 如 果 检 和 碍 类 的 property 属 性 ， 就 会 发 现 
property 目 喘 所 持 有 的 属性 fget、fset 和 fdel 所 代表 的 
原始 方法 。 示 例如 下 : 


>>> Person.first_name.fget 
<function Person.first_name at 0x1006a60e0> 
>>> Person. first_name.fset 
<function Person.first_name at 0x1006a6170> 
>>> Person. first_name.fdel 


<function Person.first_name at 0x1006a62e0> 
>>> 





一 般 来 说 我 们 不 会 直接 去 调用 fget 或 者 fset， 但 
是 当 我 们 访问 property 属 性 时 会 自动 触发 对 这 些 方 
法 的 调用 。 


只 有 当 确 实 需要 在 访问 属性 时 完成 一 些 额外 的 
处 理 任务 时 A) 应 该 使 用 property。 有 时 候 Java 程 序 
觉得 所 有 的 访问 都 需要 通过 getter 和 setter 来 处 
a BIE Fane PPE, 


pe 











class Person 


def 


__init__(self, first_name): 
self.first_name = name 
@property 
def 


first_name(self): 
return 


self._first_name 
@first_name.setter 
def 


first_name(self, value): 
self._first_name = value 





如 果 property 并 不 会 完成 任何 额外 的 处 理 任 
务 ， 束 不 要 把 代码 写成 上 面 这 个 样子 。 第 一 ， 这 么 





做 会 使 得 代码 变 得 更 加 哆 明 ， 对 其 他 人 来 说 也 比较 
困惑 。 第 二 ， 这 么 做 会 让 程序 变 慢 很 多 。 最 后 ， 这 
么 做 不 会 给 设计 斋 来 真正 的 好 处 。 特 别 是 如 果 稍 后 
决定 要 对 某 个 普通 的 属性 增加 额外 的 处 理 步 又 时 ， 

可 以 在 不 修改 已 有 代码 的 情况 下 将 这 个 属性 提升 为 
一 个 property。 这 是 因为 代码 中 访问 一 个 属性 的 语 

法 并 不 会 改变 〈 即 ， 访 问 普通 属性 和 访问 property 

属性 的 代码 写法 是 一 样 的 ) 。 

















property 也 可 以 用 来 定义 需要 计算 的 属性 。 这 
类 属性 并 不 会 实际 保存 起 来 ， 而 是 根据 需要 完成 计 
算 。 示 例如 下 : 





import math 


class Circle 


def 


__init__(self, radius): 
self.radius = radius 
@property 
def 


area(self): 
return 


math.pi * self.radius ** 2 
@property 
def 


perimeter(self): 
return 


2 * math.pi * self.radius 





这 里 对 property 的 使 用 使 得 实例 的 接口 变 得 非 


i, radius, areali X perimeter fet fai ££ H LA 
属性 的 形式 进行 访问 ， 而 不 必 将 属性 和 方法 调用 混 
在 一 起 使 用 了 。 示 例如 下 : 


>>> c = Circle(4.0) 

>>> c.radius 

4.0 

>>> c.area # 注意 这 里 没有 ( ) 





50 .26548245743669 
>>> c.perimeter # 这 里 也 没有 () 





25.132741228718345 
>>> 





KE property it K T CHEN Fated, (AA IN 
候 我 们 还 是 硕 望 能 够 直接 使 用 getter 和 setter 国 数 。 
比如 说 : 


>>> p = Person('Guido' ) 

>>> p.get_first_name() 
"Guido' 

>>> p.set_first_name('Larry' ) 
>> 





这 种 情况 常常 会 出 现在 当 Python 代 人 码 需 要 被 集 





成 到 一 个 更 为 庞大 的 系统 基础 设施 或 者 程序 的 时 





候 。 比 方 说 ， 也 许 有 一 个 Python 类 需要 根据 远程 过 
程 调 用 (RPC) 或 者 分 布 式 对 象 插入 到 一 个 大 型 的 
分 布 式 系统 中 。 在 这 种 情况 下 ， 直 接 显 式 地 采用 
get/set 方 法 〈 作 为 普通 的 方法 调用 ) 要 比 通过 
property 来 隐 式 调用 这 类 函数 更 加 方便 和 简 蛙 。 


最 后 但 也 同样 童 要 的 是 ， 不 要 编写 那 种 定义 了 
大 量 重复 性 property 的 代码 。 示 例如 下 : 








class Person 


def 


__init__(self, first_name, last_name): 
self.first_name = first_name 
self.last_name = last_name 


@property 


def 


first_name(self): 
return 
self._first_name 
@first_name.setter 


def 


first_name(self, value): 
if not 


isinstance(value, str): 
raise TypeError 


('Expected a string') 
self. first name = value 


# Repeated property code, but for a different name (bad! ) 


@property 
def 


last_name(self): 
return 
self._last_name 
@last_name.setter 


def 


last_name(self, value): 
if not 


isinstance(value, str): 
raise TypeError 


('Expected a string') 
self. last name = value 





重复 的 代码 会 导致 代码 膨胀 ， 容 易 出 错 ， 而 且 





代码 也 十 分 丑陋 。 事 实证 明 ， 利 用 描述 符 或 者 财 包 
能 够 更 好 地 完成 同样 的 任务 ， 上 其 体 请 参见 8.9 市 和 


9.217. 


8.7 ”调用 父 类 中 的 方法 


8.7.1 问题 








我 们 想 调 用 一 个 父 类 中 的 方法 ， 这 个 方法 在 子 
JE CAW tt S o 


8.7.2 RIK 


要 调用 父 类 (或 称 超 类 ) 中 的 方法 ， 可 以 使 用 
super) KAE o RAU F: 





class A 


def 


spam(self): 
print 


('A.spam') 


class B 


spam(self): 
print 


('B.spam' ) 
super().spam() # Call parent spam() 








super0) 函 数 的 一 种 常见 用 途 是 调用 父 类 的 
init 0) 方法， 确保 父 类 被 正确 地 初始 化 了 : 


def 


__init__(self): 
self.x = 0 


class B 


__ init__(self): 
super().__init__() 
self.y = 1 





HPE IH RE A i 了 Python 中 的 特殊 方 


法 时 ， 示 例如 下 : 





class Proxy 


def 


__ init__(self, obj): 


self. obj = obj 


# Delegate attribute lookup to internal obj 


def 


__getattr__(self, name): 
return 


getattr(self._obj, name) 


# Delegate attribute assignment 


def 


__setattr__(self, name, value): 
if 


name.startswith('_'): 
super().__setattr__(name, value) # Call original 


else 


setattr(self._obj, name, value) 





在 上 述 代 码 中 ，__setattr_0 的 实现 里 包含 了 对 
名 称 的 检查 。 如 果 名 称 是 以 一 个 下 划 线 〈_) 开头 
的 ， 它 就 通过 superO 去 调用 原始 的 _setattr_(0) 实 
mh. TM, Fe MOAT P RRRA HIN self. _obj 进 行 











操作 。 这 看 起 来 有 点 意思 ， 但 是 superO 即 使 在 没有 
显 式 列 出 基 类 的 情况 下 也 是 可 以 工作 的 。 





8.7.3 ”讨论 


如 何 正 确 使 用 super() 函 数 ， 这 实际 上 是 人 们 在 
Python 中 理解 的 最 差 的 知识 点 之 一 。 偶 尔 我 们 会 看 
到 一 些 代 码 直接 调用 父 类 中 的 方法 ， 束 像 这 样 : 














class Base 


def 


__ init__(self): 
print 


('Base.__init__') 


class A 


(Base): 
def 


__ init__(self): 
Base.__init__(self) 
print 


('A. init _') 











尽管 对 于 大 部 分 代码 来 说 这 么 做 都 “ 行 得 通 ” 
PREY 步 及 多 重 继承 的 代码 里 ， 就 会 导致 出 现 奇 怪 
的 及 烦 。 比 如 ， 考 虑 下 面 这 个 例子 : 





class Base 


def 


__ init__(self): 
print 


('Base.__init__') 


class A 


(Base): 
def 


__init__(self): 
Base.__ init__(self) 
print 
('A.__init__') 
class B 


(Base): 
def 


__init__(self): 
Base.__ init__(self) 
print 


CPi tnt") 


class C 


(A,B): 
def 


__init__(self): 
A.__init__(self) 
B.__ init__(self) 
print 


(CG; imit ii 





如 果 运 行 上 面 的 代码 ， 会 发 现 Base._ init (07 
法 被 调用 了 两 次 。 如 下 上 所 示 : 


Base. init_ _ 
A.__init__ 
Base. init__ 
B. init__ 
C. init __ 
>>> 





也 许 调 用 两 次 Base._init 0 并 没什么 害处 ， 但 
是 也 可 能 刚好 相反 。 如 果 从 另 一 方面 考虑 ， 将 代码 
修改 为 使 用 super()， 那 么 一 切 就 都 能 正常 工作 了 : 





class Base 


def 


__ init__(self): 
print 


('Base.__init__') 


class A 


(Base): 
def 


__init__(self): 
super().__init__() 
print 


(‘A.__init__') 


class B 


(Base): 
def 


__ init__(self): 
super().__init__() 
print 


('B.__init__') 


class C 


(A,B): 
def 


__ init__(self): 
super().__init__() # Only one call to super() here 


print 


('C. init _') 





当 使 用 这 个 新 版 的 代码 时 ， 就 会 发 现 每 个 





int 0 方法 都 只 调用 了 一 次 : 





>>> c = C() 
Base. init __ 


B. init _ 
A. init __ 
C. init __ 


>>> 


po 


要 理解 其 中 的 缘由 ， 我 们 需要 退 一 步 ， 先 讨论 
一 下 Python 是 如 何 实现 继承 的 。 和 针对 每 一 个 定义 的 
类 ，Python 都 会 计算 出 一 个 称 为 方法 解析 顺序 

(MRO) 的 列表 1 。MRO 列 表 只 是 简单 地 对 所 有 
的 基 交 进行 线性 排列 。 示 例如 下 : 





>>> C. mro_ 
(<class '__main__.C'>, <class '__main__.A'>, <class '__main__.B' 
<class '__main__.Base'>, <class 'object'>) 


>>> 





要 实现 继承 ，Python 从 MRO 列 表 中 最 左边 的 类 
开始 ， 从 无 到 右 依 次 查找 ， 直 到 找到 待 查 的 属性 时 
为 止 。 


而 MRO 列 表 本 里 又 是 如 何 确定 的 呢 ? 这 里 用 
到 了 一 种 称 为 C3 线性 化 处 理 (C3 Linearization) 的 
技术 。 为 了 不 陷入 到 艰深 的 数学 理论 中 ， 人 简单 来 说 
A 它 需 要 满足 3 个 
约束 : 


。 先 检 查 子 类 再 检查 父 类 ; 


e 有 多 个 父 类 时 ， 按 照 MRO 列 表 的 顺序 依次 





LEs; 


° 如 果 下 一 个 每 选 的 类 出 现 了 两 个 合法 的 选 
择 ， 那 么 束 从 第 一 个 父 类 中 选取 。 


老实 说 ， 所 有 需要 的 知道 的 就 是 MRO 列 表 中 
对 类 的 排序 几乎 适用 于 任何 定义 的 类 层次 结构 


(class hierarchy) 。 


当 使 用 superO0 函 数 时 ，Python 会 继续 从 MRO 中 
的 下 一 个 类 开始 搜索 。 只 要 每 一 个 重新 定义 过 的 方 
法 〈 也 残 是 履 盖 方法 ) 都 使 用 了 super0， 并 且 只 调 
FAS EMR, ABA Peal eZ we AY Cah ES MRO 
Me, FF ALR STIER Sei. RAEN 
什么 在 第 二 个 例子 中 Base. init 0O 不 会 被 调用 两 次 
的 原因 。 


天 于 super()， 一 个 有 些 令 人 惊讶 的 方面 是 ， 它 
并 不 是 一 定 要 关联 到 某 个 类 的 直接 父 类 上 ， 甚 至 可 
以 在 没有 直接 父 类 的 类 中 使 用 它 。 人 例如， 考虑 下 面 


这 个 关 ; 























class A 


spam(self): 
print 


('A.Spam' ) 


super().Spam() 








ORR a EIR TS, SEACH SET A: 


>>> a = A() 
>>> a.spam() 
A.spam 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 4, in spam 
AttributeError: 'super' object has no attribute 'spam' 
>>> 





a ene ne 
hs 





>>> class B 


def 


spam(self): 
bie print 


('B.spam' ) 


>>> class C 


(A,B): 
ae pass 


>>> c = C() 
>>> cC.spam() 
A.spam 
B.spam 





这 里 我 们 会 发 现在 类 A 中 使 用 的 SuperO.spam0) 
a 上 居然 调用 到 了 类 B 中 的 spam0) 方 法 一 一 B 和 A 
- 完全 不 相关 的 ! 这 一 切 都 可 以 用 类 C 的 MRO 列 表 

解释 : 


>>> C. mro 

<class ' main .C'>, <class ' main .A'>, <class '__main__.B' 
T T 

<class 'object'>) 


>>> 








我 们 常常 会 在 定 SURE 合 类 (mixin class) 时 以 
这 种 方式 使 用 super()。 请 参见 8.13 和 8.18 节 。 


但 是 ， 由 于 super0O 可 能 会 调用 到 我 们 不 希望 调 
用 的 方法 ， 那 么 这 里 有 一 些 应 该 遵守 的 基本 准则 。 
首先 ， 确 保 在 继承 体系 中 押 有 同名 的 方法 都 有 可 兼 
容 的 调用 签名 〈 即 ， 参 数 数量 相同 ， 参 数 名 称 也 相 
EJ) 。 如 果 super() 笠 试 去 调用 非 直 接 父 类 的 方法 ， 
那么 这 束 可 以 确保 不 会 过 到 麻烦 。 其 次 ， 确 保 最 顶 
层 的 类 实现 了 这 个 方法 通常 是 个 好 主意 。 这 样 沿 着 
A ed 
法 而 终止 。 


在 Python 社区 中 ， 关 于 superO 的 使 用 有 时 候 会 
成 为 争论 的 焦点 。 但 是 ， 公 平地 说 ， 我 们 应 该 在 现 
代 的 代码 中 使 用 它 。Raymond Hettinger 在 博客 中 写 
过 一 篇 题 为 “Python’s super() considered Super!” 的 文 
蔓 ， 文 章 中 列举 了 更 多 的 示例 和 理由 来 说 明 为 什么 
super() 会 是 超级 有 用 的 工具 。 














8.8 ”在 子 关 中 扩展 属性 
8.8.1 问题 


我 们 想 在 子 类 中 扩展 茶 个 属性 的 功能 ， 而 这 个 
属性 是 在 父 类 中 定义 的 。 





8.8.2 ”解决 方案 
考虑 如 下 的 代码 ， 这 里 我 们 定义 了 一 个 属性 


name: 





class Person 


def 


__init__(self, name): 


self.name = name 


# Getter function 


@property 
def 


name(self): 
return 


self. name 


# Setter function 


@name.setter 
def 


name(self, value): 
if not 


isinstance(value, str): 
raise TypeError 


('Expected a string') 


self. name = value 


# Deleter function 


@name.deleter 
def 


name(self): 
raise AttributeError 


("Can't delete attribute") 





下 面 我 们 从 Person 类 中 继承 ， 然 后 在 子 类 中 扩 
展 name 属 性 的 功能 : 





class SubPerson 


(Person): 


@property 
def 


name(self): 
print 


('Getting name' ) 
return 


super().name 


@name.setter 
def 


name(self, value): 
print 


('Setting name to', value) 


super(SubPerson, SubPerson).name.__set__(self, value) 


@name.deleter 
def 


name(self): 
print 


('Deleting name' ) 


super(SubPerson, SubPerson).name. delete (self) 








下 和 面 是 使 用 这 个 新 类 的 示例 : 


>>> s = SubPerson('Guido' ) 
Setting name to Guido 

>>> s.name 

Getting name 





"Guido' 

>>> Ss.name = 'Larry' 

Setting name to Larry 

>>> S.name = 42 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 16, in name 

raise TypeError 


('Expected a string') 
TypeError: Expected a string 


>>> 








如 果 只 想 扩 展 属性 中 的 其 中 一 个 方法 ， 可 以 使 
用 下 面 的 代码 实现 : 


(Person): 


@Person.name.getter 
def 


name(self): 
print 


('Getting name' ) 
return 


super().name 





或 者 ， 如 果 只 想 扩 展 setter， 可 以 这 样 : 


class SubPerson 


(Person): 


@Person.name.setter 
def 


name(self, value): 
print 


('Setting name to', value) 


super(SubPerson, SubPerson).name.__set__(self, value) 





8.8.3 ”讨论 


在 子 类 中 扩展 属性 会 引入 一 些 非 党 微妙 的 问 
题 ， 因 为 属性 其 实 是 被 定义 为 getter、setter 和 deleter 
方法 的 集合 ， 而 不 仅仅 只 是 单独 的 方法 。 因 此 ， 当 
我 们 扩展 一 个 属性 时 ， 需 要 齐 清楚 是 要 重新 定义 所 
有 的 方法 还 是 只 针对 其 中 一 个 方法 做 扩展 。 


在 第 一 个 例子 中 ， 所 有 的 属性 方法 都 被 重新 定 























义 了 。 在 每 个 方法 中 ， 我 们 利用 superO 函 数 来 调用 
之 前 的 实现 。 在 setter 了 水 数 中 ， 对 super(SubPerson,， 
SubPerson).name. set (self, value) 的 调用 并 不 是 
错误 ， 下 面 我 们 来 解释 一 下 。 为 了 调用 到 setter 之 前 
的 实现 ， 需 要 把 控制 流传 递 到 之 前 定义 的 name 属 性 
H st _(0) 方 法 中 去 。 但 是 ， 唯 一 能 调用 到 这 个 方 
法 的 方式 就 古 以 类 变量 而 不 是 实例 变量 的 方式 去 访 
问 。 这 正 是 super(SubPerson, SubPerson) 操 作 所 完成 
的 任务 。 


如 果 只 想 重 新 定义 其 中 的 一 个 方法 ， 只 使 用 
(@property 是 不 够 的 。 例 如 ， 下 和 面 这 样 的 代码 是 无 
法 工作 的 : 




















class SubPerson 


(Person): 
@property # Doesn't work 
def 


name(self): 
print 


('Getting name' ) 
return 


super().name 


Le 


如 果 试 着 使 用 这 份 代码 ， 就 会 发 现 setter 函 数 完 
全 消失 不 见 了 : 





s = SubPerson('Guido' ) 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 5, in __init__ 


self.name = name 
AttributeError: can't set attribute 
>>> 








相反 ， 我 们 应 该 将 代码 修改 为 解决 方案 中 的 那 





class SubPerson 


(Person): 


@Person.getter 
def 


name(self): 


print 


('Getting name' ) 
return 


super().name 








当 这 么 做 之 后 ， 所 有 之 前 定义 过 的 属性 方法 都 
会 被 拷贝 过 来 ， 而 getter 函 数 则 会 被 瞧 换 挥 。 现 在 可 
以 按照 预期 的 方式 工作 了 : 





Getting name 


s.name = 'Larry' 
>>> 


s.name 
Getting name 
'Larry' 

>>> 


s.name = 42 
Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 
File "example.py", line 16, in name 
raise 


TypeError('Expected a string' ) 
TypeError: Expected a string 
>>> 





在 这 个 特定 的 解决 方案 中 ， 我 们 没 法 以 更 加 一 
般 化 的 名 称 来 谷 换 便 编 码 的 类 名 Person。 如 条 不 清 
楚 哪 个 基 类 定义 了 属性 ， 则 应 该 采用 这 样 的 方案 : 
重新 定义 所 有 的 属性 方法 ， 并 利用 super() 来 调用 之 


前 的 实现 。 





值得 一 所 的 是 ， 本 市 展示 的 第 一 个 技术 同样 也 
可 以 用 来 扩展 描述 符 《〈 见 8.9 季 ) 。 示 例如 下 : 





# A descriptor 


class String 


def 


__init__(self, name): 


self.name = name 


def 


__get__(self, instance, cls): 
if 


instance is None: 
return 


self 
return 


instance. dict__[self.name] 


def 


__set__(self, instance, value): 
if not 


isinstance(value, str): 
raise TypeError 


('Expected a string') 


instance. _dict__[self.name] = value 


# A class with a descriptor 


class Person 


name = String('name' ) 
def 


__init__(self, name): 


self.name = name 


# Extending a descriptor with a property 


class SubPerson 


(Person): 


@property 
def 


name(self): 
print 


('Getting name' ) 
return 


super().name 


@name.setter 


def 


name(self, value): 
print 


('Setting name to', value) 


super(SubPerson, SubPerson).name.__set__(self, value) 
@name.deleter 
def 


name(self): 
print 


('Deleting name' ) 


super(SubPerson, SubPerson).name. delete (self) 
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会 觉得 在 子 类 中 重 定 义 setter 和 deleter 的 工作 多 少 得 
到 了 一 些 简化 。 虽 然 这 里 给 出 的 解决 方案 仍然 能 够 
正常 工作 ， 但 是 在 Python 的 问题 报告 页 面 中 提 到 的 
这 个 bug (http://bugs.python.org/issue14965 ) 可 能 
会 使 得 在 未 来 的 Python 版 本 中 产生 出 一 种 更 加 清晰 
的 解决 方案 。 








8.9 创建 一 种 新 形式 的 类 属性 或 实 
例 属性 


8.9.1 问题 





我 们 想 创建 一 种 新 形式 的 实例 属性 ， 它 可 以 拥 
有 一 些 额 外 的 功能 ， 比 如 说 类 型 检 栓 。 


8.9.2 ”解决 方案 


如 果 想 创建 一 个 新 形式 的 实例 属性 ， 可 以 以 摘 
述 符 类 的 形式 定义 其 功能 。 示 例如 下 : 











# Descriptor attribute for an integer type-checked attribute 


class Integer 


def 


__init__(self, name): 


self.name = name 


def 


__get__(self, instance, cls): 
if 


instance is None: 
return 


self 
else 


return 


instance. dict__[self.name] 


def 


__set__(self, instance, value): 
if not 


isinstance(value, int): 
raise TypeError 


('Expected an int') 


instance. _dict__[self.name] = value 


def 


__ delete (self, instance): 
del 


instance. dict__[self.name] 


所 谓 的 摘 述 符 就 是 以 特殊 方法 _get_()、 
set () 和 ”delete_ 0 的 形式 实现 了 三 个 核心 的 属 
性 访问 操作 (对 应 于 get、set 和 delete〉 的 类 。 这 些 
方法 通过 接受 类 实例 作为 输入 来 工作 。 之 后 ， 底 层 
的 实例 字典 会 根据 需要 适当 地 进行 调整 。 


要 使 用 一 个 描述 符 ， 我 们 把 描述 符 的 实例 放置 
在 类 的 定义 中 作为 类 变量 来 用 。 示 例如 下 : 





class Point 


x = Integer('x') 
y = Integer('y') 
def 


_ init__(self, x, y): 
self.x 
self.y 


X 
y 





当 这 么 做 时 ， 所 有 针对 摘 述 符 属 性 〈 即 ， 这 里 
的 x 或 y) 的 访问 都 会 被 get_(0、_ set_ 0 和 
_ delete_ 0) 方法 所 捕获 。 示 例如 下 : 


P| 


p = Point(2, 3) 


>>> 

p.x # Calls Point.x__get__(p, Point) 
2 
>>> 

p.y=5 # Calls Point.y.__set__(p, 5) 
>>> 

p.X = 2.3 # Calls Point.x.__set__(p, 2.3) 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "descrip.py", line 12, in __set__ 
raise TypeError 


('Expected an int') 
TypeError: Expected an int 
>>> 
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入 。 要 执行 所 请 求 的 操作 ， 压 层 的 实例 字典 〈 即 
dict 属性) 会 根据 需要 适当 地 进行 调整 。 摘 述 


从 的 self.name 属 性 会 保存 字典 的 键 ， 通 过 这 些 键 可 
以 找到 存储 在 实例 字典 中 的 实际 数据 。 








8.9.3 ”讨论 


对 于 大 多 数 Python 类 的 特性 ， 摘 述 符 都 提供 了 
底层 的 魔法 ， 包 括 @classmethod、@staticmethod、 
@property 甚 至 _、slots_。 


通过 定义 一 个 描述 符 ， 我 们 可 以 在 很 底层 的 情 
况 下 捕获 关键 的 实例 操作 (get、set、delete) ， 并 
可 以 完全 自 定义 这 些 操 作 的 行为 。 这 种 能 力 非 常 强 
大 ， 这 也 是 那些 编写 高 级 程序 库 和 框架 的 作者 们 所 
使 用 的 最 为 重要 的 工具 之 一 。 
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在 类 的 层次 上 定义 ， 不 能 根据 实例 来 产生 。 因 此 ， 
下 面 这 样 的 代码 是 无 法 工作 的 : 























# Does NOT work 


class Point 


__init__(self, x, y): 
self.x = Integer('x') # No! Must be a class variable 


~ 


self.y = Integer('y') 
self.x = x 
self.y = y 





此 外 ， 在 实现 _get_() 方 法 时 比 想象 中 的 还 要 
BAR HE: 





# Descriptor attribute for an integer type-checked attribute 


class Integer 


def 
__get__(self, instance, cls): 
if 


instance is 


None: 
return 


self 
else 


return 


instance. dict__[self.name] 





get 0 看 起 来 多 少 有 些 复杂 的 原因 在 于 实例 
变量 和 类 变量 之 间 是 有 区 别 的 。 如 果 是 以 类 变量 的 
形式 访问 摘 述 符 ， 参 数 instance 应 该 设 为 None。 在 
这 种 情况 下 ， 标 准 做 法 就 是 简单 地 返回 描述 符 实例 
本 身 〈 尽 管 此 时 做 任何 类 型 的 白 定义 处 理 也 是 允许 
的 ) 。 示 例如 下 : 


>>> p = Point(2,3) 
>>> p.x # Calls Point.x.__get__(p, Point) 


2 
>>> Point.x # Calls Point.x.__get__(None, Point) 


<__main__.Integer object at 0x100671890> 
>>> 





描述 符 常 常会 作为 一 个 组 件 出 现在 大 型 的 编程 
框 娘 中 ， 其 中 还 会 涉及 装饰 右 或 者 元 类 。 正 因为 如 
此 ， 对 描述 符 的 使 用 可 能 隐藏 得 很 深 ， 几 乎 看 不 到 
痕迹 。 例 如 ， 下 面 是 一 些 更 加 高 级 的 基于 描述 符 的 
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# Descriptor for a type-checked attribute 


class Typed 


def 


__init__(self, name, expected_type): 
self.name = name 
self.expected_type = expected_type 


def 


__get__(self, instance, cls): 
if 


instance is 


None: 
return 


self 
else 


return 


instance. dict__[self.name] 


def 


__set__(self, instance, value): 
if not 


isinstance(value, self.expected_type): 
raise TypeError 


('Expected ' + str(self.expected_type) ) 
instance. dict__[self.name] = value 


def 


_ delete (self, instance): 
del 


instance. dict__[self.name] 


# Class decorator that applies it to selected attributes 


def 


typeassert(**kwargs): 
def 


decorate(cls): 
for 


name, expected_type in 


kwargs.items(): 
# Attach a Typed descriptor to the class 


setattr(cls, name, Typed(name, expected_type) ) 
return 


cls 
return 
decorate 


# Example use 


@typeassert(name=str, shares=int, price=float) 
class Stock 


def 


__init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 





最 后 ， 应 该 强调 的 是 ， 如 条 只 是 想 访 问 东 个 特 





定 的 类 中 的 一 各 属性， 并 对 此 做 定制 化 处 理 ， 那 么 
最 好 不 要 编写 摘 述 符 来 实现 。 对 于 这 个 任务 ， 用 
property 属 性 方法 来 完成 会 更 加 简单 〈 见 8.6 闻 ) 。 
在 需要 大 量 重 用 代码 的 情况 下 ， 摘 述 符 会 更 加 有 用 
(例如 ， 我 们 希望 在 自己 的 代码 中 大 量 使 用 描述 符 
提供 的 功能 ， 或 者 将 其 作为 库 来 使 用 ) 。 




















8.10 ”让 属性 具有 惰性 求 值 的 能 
8.10.1 问题 


我 们 想 将 一 个 只 读 的 属性 定义 为 property 属 性 
方法 ， 只 有 在 访问 它 时 才 参 与 计算 。 但 是 ， 一 旦 访 
问 了 该 属性 ， 我 们 希望 把 计算 出 的 值 缓存 起 来 ， 不 
要 每 次 访问 它 时 都 重新 计算 。 








8.10.2 ”解决 方案 


定义 一 个 惰性 属性 最 有 效 的 方式 融 是 利用 描述 
从 类 来 完成 ， 示 例如 下 : 











class lazyproperty 


def 
__init__(self, func): 
self.func = func 


def 


__get__(self, instance, cls): 
if 


instance is 


None: 
return 
self 
else 
value = self.func(instance) 
setattr(instance, self.func. name , value) 
return 
value 





要 使 用 上 述 代 码 ， 可 以 像 下 面 这 样 在 东 个 类 中 
Fe: 





import math 


class Circle 


def 
__init__(self, radius): 
self.radius = radius 


@lazyproperty 
def 


area(self): 
print 


('Computing area' ) 
return 


math.pi * self.radius ** 2 
@lazyproperty 


def 


perimeter(self): 
print 


('Computing perimeter ' ) 
return 


2 * math.pi * self.radius 





下 面 的 交互 式 会 话说 明了 这 是 如 何 工作 的 : 





>>> c = Circle(4.0) 
>>> c.radius 

4.0 

>>> c.area 
Computing area 
50.26548245743669 
>>> c.area 
50.26548245743669 
>>> c.perimeter 
Computing perimeter 
25.132741228718345 
>>> C.perimeter 
25.132741228718345 


请 注意 ， 这 里 的 “Computing area” 和 “Computing 
perimeter” 只 打印 了 一 次 。 


8.10.3 ”讨论 


在 大 部 分 情况 下 ， 让 属性 具有 惰性 求 值 能 力 的 
全 部 音义 束 在 于 提升 程序 性 能 。 例 如 ， 除 非 确 实 需 
要 用 到 这 个 属性 ， 人 否则 束 可 以 避免 进行 无 意义 的 计 
算 。 本 市 给 出 的 解决 方案 正 是 应 对 于 此 ， 而 且 利 用 
nen 使 得 能 够 以 高 效 的 方式 来 达 

在 8.9 贡 中 讲 过 ， 当 把 拉 述 符 放 到 类 的 定义 体 中 
时 ， 访 问 它 的 属性 会 触发 _get O set _ 0 和 
_ delete_ 0) 方法 得 到 执行 。 但 是 ， 如 果 一 个 摘 述 符 
只 定义 了 _ get_ 0 方法 ， 则 它 的 绑 定 关系 比 一 般 情 
况 下 要 弱化 很 多 (much weaker binding) 。 特 别 
是 ， 只 有 妆 被 访问 的 属性 不 在 后 层 的 实例 字典 中 
时 ，__get_ 0 方法 才 会 得 到 调用 。 


示例 中 的 lazyproperty 类 通过 让 get_ 0 方法 以 
property 属 性 相同 的 名 称 来 保存 计算 出 的 值 。 这 么 
做 会 让 值 保 存在 实例 字典 中 ， 可 以 阻止 该 property 

















属性 旱 复 进行 计算 。 仔细 观察 下 面 的 示例 惑 能 发 现 





>>> c = Circle(4.0) 
>>> # Get instance variables 


>>> vars(Cc) 
{'radius': 4.0} 


>>> # Compute area and observe variables afterward 


>>> C.area 

Computing area 

50 .26548245743669 

>>> vars(c) 

{'area': 50.26548245743669, '‘radius': 4.0} 


>>> # Notice access doesn't invoke property anymore 


>>> C.area 
50 .26548245743669 


>>> # Delete the variable and see property trigger again 


>>> del 


c.area 
>>> vars(c) 
{'radius': 4.0} 
>>> c.area 
Computing area 
50.26548245743669 
>>> 


| 


本 节 讨 论 的 技术 有 一 个 潜在 的 缺点 ， 即 ， 计 算 
出 的 值 在 创建 之 后 就 变 成 可 变 的 (mutable〉 了 。 示 
例如 下 : 


>>> C.area 
Computing area 

50 .26548245743669 
>>> C.area = 25 
>>> C.area 
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种 方式 实现 ， 但 执行 效率 会 稍 打 折扣 : 





def 


lazyproperty(func): 
name = '_lazy_' + func.__name__ 
@property 
def 


lazy(self): 
if 


hasattr(self, name): 
return 


getattr(self, name) 


else 


value = func(self) 
setattr(self, name, value) 
return 


value 
return 


lazy 





如 果 使 用 这 个 版 本 的 实现 ， 就 会 发 现 set 操 作 是 
不 允许 执行 的 。 示 例如 下 : 


>>> c = Circle(4.0) 
>>> c.area 
Computing area 
50.26548245743669 
>>> c.area 
50.26548245743669 
>>> c.area = 25 


Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
AttributeError: can't set attribute 
>>> 








但 是 ， 这 种 方式 的 缺点 束 是 所 有 的 get 操 作 都 必 
须 经 由 属性 的 getter 函 数 来 处 理 。 这 比 直 接 在 实例 字 
典 中 查找 相应 的 值 要 慢 一 些 。 








更 多 有 关 property 和 可 管理 属性 的 信息 ， 请 参 
见 8.6 节 。 描 述 符 在 8.9 节 已 有 详尽 的 讲解 。 


8.11 简化 数据 结构 的 初始 化 过 程 
8.11.1 问题 

我 们 编写 了 许多 类 ， 把 它们 当做 数据 结构 来 
用 。 但 是 我 们 厌倦 了 编写 高 度 重 复 且 样式 相同 的 
int 0 函数 。 
8.11.2 解决 方案 

通常 我 们 可 以 将 初始 化 数据 结构 的 步骤 归纳 到 


一 个 单独 的 _init_0 函 数 中 ， 并 将 其 定义 在 一 个 公 
共 的 基 类 中 。 示 例如 下 : 























class Structure 


# Class variable that specifies expected fields 
_fields= [] 
def 
__init__(self, *args): 
if 


len(args) != len(self._fields): 


raise TypeError 


('Expected {} arguments'.format(len(self. fields) )) 


# Set the arguments 


for 
name, value in 
Zip(self._fields, args): 


setattr(self, name, value) 


# Example class definitions 


if 


—_name__ == ' main __': 
class Stock 


(Structure): 
_fields = ['name', 'shares', 'price'] 
class Point 
(Structure): 
_fields = ['x','y'] 
class Circle 
(Structure): 


_fields = ['radius'] 
def 


area(self): 
return 


math.pi * self.radius ** 2 





如 果 使 用 这 些 类 ， 就 会 发 现 它 们 非常 易于 构 
建 。 示 例如 下 : 


= Stock('ACME', 50, 91.1) 
= Point(2, 3) 
= Circle(4.5) 
>>> S2 = Stock('ACME', 50) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "structure.py", line 6, in __init__ 
raise TypeError 


('Expected {} arguments'.format(len(self. fields) )) 
TypeError: Expected 3 arguments 





我 们 应 该 提供 对 关键 字 参数 的 文 持 ， 这 里 有 几 
种 设计 上 的 选择 。 一 种 选择 束 是 对 关键 字 参 数 做 映 
W XE CNIR IMET EXE fields HR tE 
名 。 不 例如 下 : 











class Structure 


_fields= [] 
def 


__ init__(self, *args, **kwargs): 
if 


len(args) > len(self._fields): 
raise TypeError 


('Expected {} arguments'.format(len(self._ fields) )) 


# Set all of the positional arguments 


for 


name, value in 


Zip(self._fields, args): 


setattr(self, name, value) 


# Set the remaining keyword arguments 


for 


name in 


self. _fields[len(args):]: 


setattr(self, name, kwargs.pop(name) ) 


# Check for any remaining unknown arguments 


if 


kwargs: 
raise TypeError 


('Invalid argument(s): {}'.format(','.join(kwargs) )) 


# Example use 


if 


_name == ' main __ 
class Stock 


(Structure): 
_fields = ['name', 'shares', 'price'] 


s1 = Stock('ACME', 50, 91.1) 
s2 = Stock('ACME', 50, price=91.1) 
s3 = Stock('ACME', shares=50, price=91.1) 





为 一 种 可 能 的 选择 是 利用 关键 字 参 数 来 给 类 添 








加 额外 的 属性 ， 这 些 人 额外 的 属性 是 没有 定义 在 
_fields 中 的 。 示 例如 下 : 





class Structure 


# Class variable that specifies expected fields 


_fields= [] 
def 


__ init__(self, *args, **kwargs): 
if 


len(args) != len(self._fields): 
raise TypeError 


('Expected {} arguments'.format(len(self. fields) )) 


# Set the arguments 


for 


name, value in 


Zip(self._fields, args): 


setattr(self, name, value) 


# Set the additional arguments (if any) 


extra_args = kwargs.keys() - self._fields 
for 


name in 


extra_args: 
setattr(self, name, kwargs.pop(name) ) 
if 


kwargs: 
raise TypeError 


('Duplicate values for {}'.format(','.join(kwargs) ) ) 


# Example use 


if 


—_name_— == ' main __': 
class Stock 


(Structure): 
_fields = ['name', 'shares', 'price'] 


s1 
s2 


Stock('ACME', 50, 91.1) 
Stock('ACME', 50, 91.1, date='8/2/2012') 





8.11.3 Wir 





如 果 要 编写 的 程序 中 有 大 量 小 型 的 数据 结构 ， 
那么 定义 一 个 通用 型 的 _init_() 方 法 会 特别 有 用 。 
相 比 于 下 和 面 这 样 手动 编写 每 个 _init_0 方 法， 这么 
做 可 使 得 代码 量 大 大 减少 : 











class Stock 


def 


__init__(self, name, shares, price): 


self.name = name 
self.shares = shares 
self.price = price 


class Point 


def 
__init__(self, x, y) 
self.x = x 
self.y = y 


class Circle 


def 


__init__(self, radius): 
self.radius = radius 


def 


area(self): 
return 


math.pi * self.radius ** 2 








我 们 给 出 的 实现 中 ， 一 个 微妙 之 处 在 于 使 用 了 





setattrO 图 数 来 设 定 属性 值 。 与 之 相反 的 是 ， 有 人 可 


能 会 倾向 于 直接 访问 实例 字典 。 示 例如 下 : 


# Class variable that specifies expected fields 
_fields= [] 
def 


__init__(self, *args): 
if 


len(args) != len(self._fields): 
raise TypeError 


('Expected {} arguments'.format(len(self. fields) )) 


# Set the arguments (alternate) 


self.__dict__.update(zip(self. fields, args) ) 





尽管 这 么 做 行 得 通 ， 但 像 这 样 假设 子 类 的 实现 





通常 是 不 安全 的 。 如 果菜 个 子 类 决定 使 用 _ slots 
或 者 用 property〈 也 可 以 是 描述 符 ) 包装 了 某 个 特 
定 的 属性 ， 直 接 访问 实例 字典 吏 会 产生 骨 误 。 我 们 
给 出 的 解决 方案 已 经 尽 可 能 地 做 到 通用 ， 不 会 对 子 
类 的 实现 做 任何 假设 。 

















这 种 技术 的 一 个 潜在 缺点 束 是 会 影响 到 
IDE 集成 开发 环境 ) 的 文档 和 帮助 功能 。 如 来 用 





户 针 对 某 个 特定 的 类 寻求 帮助 ， 那 么 所 需 的 参数 将 
不 会 以 正常 的 形式 来 表述 。 示 例如 下 : 


>>> help(Stock) 
Help on class Stock in module __main__ 


class Stock(Structure) 


Methods inherited from Structure: 


| 
| 
| _ init__(self, *args, **kwargs) 
| 





这 些 问 题 可 以 通过 在 _init_ 0 函数 中 强制 施行 
类 型 签名 来 解决 ， 相 关内 容 请 参阅 9.16 市 。 


应 该 指出 的 是 ， 也 可 以 采用 所 谓 的 “frame 
hack” 技 巧 来 实现 目 动 化 的 实例 变量 初始 化 处 理 ， 
只 要 编写 一 个 功能 函数 即 可 。 示 例如 下 : 








def 


init_fromlocals(self): 
import sys 


locs = sys._getframe(1).f_locals 
for 


kv in 


locs.items(): 
if 


k != 'self': 
setattr(self, k, v) 
class Stock 


def 


init (self, name, shares, price): 
init_fromlocals(self) 








在 这 种 方法 中 ， 函 数 init_fromlocalsO 利 用 
sys._getframe() 来 获取 调用 方 的 局 部 变量 。 如 果 在 





init 0 方法 中 首先 调用 这 个 函数 ， 那 么 获取 到 的 
局 部 变量 就 和 传递 给 _init_(0) 方 法 的 参数 是 一 致 

的 ， 可 以 轻松 用 来 设 定 属性 。 尽 管 这 种 方法 可 以 避 
免 在 IDE 中 出 现 获取 到 不 一 致 的 调用 签名 问题 ， 但 
比 起 解决 方案 中 提供 的 方法 要 慢 上 50%， 也 需要 程 
序 员 输入 更 多 的 代码 ， 这 种 方法 在 幕后 也 做 了 更 加 
复杂 的 操作 。 如 果 我 们 的 代码 不 需要 这 种 额外 的 能 
力 ， 那 么 通 篆 更 简单 的 方案 会 更 好 。 








8.12 定义 一 个 接口 或 抽象 基 类 


8.12.1 问题 





我 们 想 定义 一 个 类 作为 接口 或 者 是 抽象 基 类 ， 
这 样 可 以 在 此 之 上 执行 类 型 检查 并 确保 在 子 类 中 实 
现 特定 的 方法 。 


8.12.2 ”解决 方案 


要 定义 一 个 抽象 基 类 ， 可 以 使 用 abc 模 块 。 示 
例如 下 : 





from abc import 


ABCMeta, abstractmethod 
class IStream 
(metaclass=ABCMeta): 


@abstractmethod 
def 


read(self, maxbytes=-1): 
pass 


@abstractmethod 
def 


write(self, data): 
pass 
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例如 ， 如 条 答 斌 这么 做 ， 会 得 到 错误 提示 : 





a = IStream() # TypeError: Can't instantiate abstract class 


# IStream with abstract methods read, write 








相反 ， 抽 象 基 类 是 用 来 给 其 他 的 类 当做 基 类 使 
用 的 ， 这 些 子 类 需要 实现 基 类 中 要 求 的 那些 方法 。 
示例 如 下 : 











class SocketStream 


(IStream): 
def 


read(self, maxbytes=-1): 


def 


write(self, data): 











抽象 基 类 的 主要 用 途 是 强制 规定 所 需 的 编程 接 
口 。 例 如 ， 一 各 看待 IStream 基 类 的 方式 就 是 在 高 层 
次 上 指定 一 个 接口 规范 ， 使 其 允许 读 取 和 写 入 数 
据 。 显 式 检 查 这 个 接口 的 代码 可 以 写成 如 下 形式 : 











def 


serialize(obj, stream): 
if not 


isinstance(stream, IStream): 
raise TypeError 


('Expected an IStream' ) 








我 们 可 能 会 认为 这 种 形式 的 类 型 检查 只 有 在 子 
类 化 抽象 基 类 (ABC) 时 才能 工作 ,但 是 抽象 基 类 
也 允许 其 他 的 类 同 其 注册 ， 人 然后 实现 所 需 的 接口 。 
例如 ， 我 们 可 以 这 样 做 : 








import io 


# Register the built-in I/O classes as supporting our interface 


IStream.register(io.IOBase) 


# Open a normal file and type check 


f = open('foo.txt') 
isinstance(f, IStream) # Returns True 
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到 静态 方法 、 类 方法 和 property 属 性 上 。 只 要 确保 
以 合适 的 顺序 进行 添加 即 可 ， 这 tat ncnhod 
要 去 换 看 函数 定义 。 示 例如 下 : 





from abc import 


ABCMeta, abstractmethod 


class A 


(metaclass=ABCMeta): 
@property 


@abstractmethod 
def 


name(self): 
pass 


@name.setter 
@abstractmethod 
def 


name(self, value): 
pass 


@classmethod 
@abstractmethod 
def 


methodi(cls): 
pass 


@staticmethod 
@abstractmethod 
def 


method2(): 
pass 





8.12.3 ”讨论 


标准 库 中 已 经 预定 义 好 了 一 些 抽象 基 类 。 
collections 模 块 中 定义 了 多 个 和 容 圳 还 有 迭代 需 
序列、 映射 、 集 合 等 ) 相关 的 抽象 基 类 。 
numbers 库 中 定义 了 和 数值 对 象 〈 整 数 、 浮 点 数 、 
复数 等 ) 相关 的 抽象 基 类 。io 库 中 定义 了 和 LO 处 理 
相关 的 抽象 基 类 。 


可 以 使 用 这 些 预 定义 好 的 抽象 基 类 来 执行 更 加 
一 般 化 的 类 型 检查 。 下 面 是 一 些 例子 : 














import collections 


# Check if x is a sequence 

if 

isinstance(x, collections.Sequence): 
# Check if x is iterable 

if 


isinstance(x, collections.Iterable): 


# Check if x has a size 

if 

isinstance(x, collections.Sized): 
# Check if x is a mapping 

if 


isinstance(x, collections.Mapping): 





应 该 提 到 的 是 ， 在 写作 本 节 时 ， 某 些 库 和 模块 
gp J 望 的 那样 利用 预定 义 好 的 抽象 基 
类 。 例 如 : 





from decimal import 


Decimal 
import numbers 


x = Decimal('3.4') 
isinstance(x, numbers.Real) # Returns False 


里 然 从 技术 上 说 3.4 是 一 个 实数 ， 由 于 我 们 无 意 
中 将 浮 点 数 和 小 数 混在 一 起 ， 这 里 的 闫 型 检查 没有 
起 到 应 有 的 作用 。 因 此 ， 如 果 使 用 了 抽象 基 类 的 功 
能 ， 明 智 的 做 法 古 仔细 编写 测试 用 例 来 验证 其 行为 
征 合 是 所 期 竺 的 。 


尽管 抽象 基 类 使 得 类 型 检查 变 得 更 容易 了 ， 但 
不 应 该 在 程序 中 过 上 度 使 用 它 。Python 的 核心 在 于 它 
是 一 种 动态 语言 ， 它 带 米 了 极 大 的 灵活 性 。 如 果 人 处 
处 都 强制 实行 类 型 约束 ， 则 会 使 得 代码 变 得 更 加 复 
J 我 们 应 该 拥抱 Python 的 灵 
活性 。 


























8.13 ”实现 一 种 数据 模型 或 类 型 系 


8.13.1 问题 


我 们 想 定义 各 种 各 样 的 数据 结构 ， 但 是 对 于 某 
些 特 定 的 属性 ， 我 们 想 对 允许 赋 给 它们 的 值 强制 添 
加 一 些 限 制 。 


8.13.2 ”解决 方案 


在 这 个 问题 中 ， 基 本 上 我 们 面 对 的 任务 就 是 在 
设 定 特定 的 实例 属性 时 添加 检查 或 者 断言 。 为 了 做 
到 这 点 ， 需 要 对 每 个 属性 的 设 定做 定制 化 处 理 ， 因 
此 应 该 使 用 描述 符 来 完成 。 


下 面 的 代码 使 用 描述 符 实 现 了 一 个 类 型 系统 以 
及 对 值 进行 检查 的 框 染 : 























# Base class. Uses a descriptor to set a value 


class Descriptor 


def 


__init__(self, name=None, **opts): 
self.name = name 
for 


key, value in 


opts.items(): 
setattr(self, key, value) 
def 
__set__(self, instance, value): 


instance. dict__[self.name] = value 


# Descriptor for enforcing types 
class Typed 
(Descriptor): 

expected_type = type(None) 


def 


__set__(self, instance, value): 
if not 


isinstance(value, self.expected_type): 
raise TypeError 


('expected ' + str(self.expected_type) ) 
super().__set__(instance, value) 


# Descriptor for enforcing values 


class Unsigned 


(Descriptor): 
def 


__set__(self, instance, value): 
if 


value < 0: 
raise ValueError 


('Expected >= 0') 
Super().__set__(instance, value) 
class MaxSized 


(Descriptor): 
def 


__init__(self, name=None, **opts): 
if 


"size' not in 


opts: 
raise TypeError 


('missing size option' ) 
super().__i1nit__(name, **opts) 


def 


et__(self, instance, value): 
if 


len(value) >= self.size: 
raise ValueError 


('size must be < ' + str(self.size) ) 
super().__set__(instance, value) 





这 些 类 可 作为 构建 一 个 数据 模型 或 者 类 型 系统 
的 基础 组 件 。 让 我 们 继续 ， 下 面 这 些 代码 实现 了 一 
些 不 同类 型 的 数据 : 





class Integer 


(Typed): 
expected_type = int 


class UnsignedIinteger 
(Integer, Unsigned): 


pass 


class Float 


(Typed): 
expected_type = float 


class UnsignedFloat 


(Float, Unsigned): 
pass 


class String 


(Typed): 
expected_type = str 
class SizedString 


(String, MaxSized): 
pass 





有 了 这 些 类 型 对 象 ， 现 在 就 可 以 像 这 样 定义 一 


DRI: 





class Stock 


# Specify constraints 


name = SizedString('name',size=8) 
shares = UnsignedInteger('shares') 
price = UnsignedFloat('price') 

def 


__init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = pric 





有 了 了 这些 约束 后 ， 束 会 及 现 现 在 对 属性 进行 赋 
值 是 会 进行 验证 的 。 示 例如 下 : 





>>> s = Stock('ACME', 50, 91.1) 
>>> Ss,name 


"ACME' 
>>> s.shares = 75 
>>> s.shares = -10 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 17, in __set__ 
super().__set__(instance, value) 
File "example.py", line 23, in __set__ 
raise ValueError 


('Expected >= 0') 
ValueError: Expected >= 0 
>>> s.price = ‘a lot' 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 16, in __set__ 
raise TypeError 


('expected ' + str(self.expected_type) ) 
TypeError: expected <class 'float'> 
>>> S.name = 'ABRACADABRA' 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 17, in __set__ 
super().__set__(instance, value) 
File "example.py", line 35, in __set__ 
raise ValueError 


('size must be < ' + str(self.size)) 
ValueError: size must be < 8 
>>> 





可 以 运用 一 些 拉 术 来 们 化 在 类 中 设 定 约束 的 步 
又 。 一 种 方法 是 使 用 闫 猴 饰 项 ， 示 例如 下 : 





# Class decorator to apply constraints 


def 


check_attributes(**kwargs): 
def 


decorate(cls): 
for 


key, value in 


kwargs.items(): 
if 


isinstance(value, Descriptor): 
value.name = key 
setattr(cls, key, value) 
else 


setattr(cls, key, value(key)) 


return 


cls 
return 


decorate 


# Example 


@check_attributes(name=SizedString(size=8), 
shares=UnsignedInteger, 
price=UnsignedFloat ) 

class Stock 


def 


__init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 
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# A metaclass that applies checking 


class checkedmeta 


(type): 
def 


__new__(cls, clsname, bases, methods): 
# Attach attribute names to the descriptors 


for 


key, value in 


methods.items(): 
if 


isinstance(value, Descriptor): 
value.name = key 
return 


type.__new__(cls, clsname, bases, methods) 
# Example 


class Stock 


(metaclass=checkedmeta) : 
name = SizedString(size=8) 
shares = UnsignedInteger() 
price = UnsignedFloat() 
def 


__init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 





8.13.3 ”讨论 


本 节 涉 及 了 好 几 种 高 级 技术 ， 包 括 描述 符 、 
mixin 类 、 对 super() 的 使 用 、 类 装饰 妖 以 及 元 类 。 在 
这 里 涵盖 所 有 这 些 主题 的 基础 知识 显然 是 不 现实 
的 ， 读 者 可 以 在 其 他 章节 中 找到 相关 的 示例 (参阅 
8.9、8.18、9.12 以 及 9.19 节 ) 。 但 是 ， 还 是 有 几 个 
微妙 之 处 值得 我 们 讨论 。 


首先 ， 在 Descriptor 基 类 中 会 发 现 有 一 个 
set (方法 ， 但 是 却 没有 与 之 对 应 的 _ get_0 〇 方 
法 。 如 条 一 个 描述 符 所 做 的 仅仅 只 是 从 底层 的 实例 
字典 中 提取 出 具有 相同 名 称 的 值 ， 那 么 定义 
_ get _0 束 是 不 必要 的 了 。 实 际 上 ， 在 这 里 定义 
”get (0 反而 会 让 程序 运行 得 更 慢 。 因 此 ， 本 市 只 
会 把 重点 放 在 对 __set_ 0 的 实现 上 。 


本 节 中 各 个 描述 符 类 的 总 体 设计 是 基于 mixin 
类 的 。 例 如 ，Unsigned 和 MaxSized 类 是 用 来 和 其 他 
从 Typed 类 中 继承 而 来 的 描述 符 类 混合 在 一 起 使 用 
的 。 要 处 理 某 种 特定 的 数据 类 型 ， 我 们 使 用 多 重 继 
承 来 将 所 需要 的 功能 联合 在 一 起 使 用 。 


我 们 也 会 注意 到 所 有 插 述 符 的 _init_0 方 法 已 


经 被 编写 为 具有 相同 的 签名 形式 ， 其 中 涉及 关键 字 
参数 **opts。MaxSized 类 会 在 opts 中 寻找 它 所 需要 















































的 属性 ， 但 是 会 将 其 传递 给 基 类 Descriptor， 然 后 在 
基 类 中 完成 实际 的 设 定 。 像 这 样 的 组 合 类 〈 尤 其 是 
mixin) ， 一 个 环 手 的 地 方 在 于 我 们 并 非 总 是 知道 

这 些 类 是 如 何 串 联 起 来 的 ， 或 者 superO0 到 底 会 调用 
些 什 么 。 基 于 这 个 原因 ， 和 需要 保证 让 所 有 可 能 出 现 
的 组 合 类 都 能 正常 工作 。 














各 种 类 型 类 (type classs) 的 定义 比如 Integer、 
Float 以 及 String 展 示 了 一 项 有 用 的 技术 ， 即 ， 使 用 
类 变量 来 定制 化 实现 。 描 述 符 Typed 仅 仅 是 寻找 一 
个 expected_type 属 性 ， 该 属性 是 由 那些 子 类 所 提供 
的 。 
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码 。 我 们 会 友 现 在 这 些 例子 中 ， 用 户 不 再 需要 多 次 
输入 属性 名 了 。 示 例如 下 : 








# Normal 


class Point 


x = Integer('x') 
y = Integer('y') 


# Metaclass 


class Point 


(metaclass=checkedmeta) : 
x = Integer() 
y = Integer() 
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但 机 制 。 这 样 丈 能 让 检查 机 制 可 以 根据 需要 随意 打 
开 或 关闭 (调试 环境 对 比 生产 环境 ) 。 


最 后 ， 采 用 类 装饰 器 的 解决 方案 也 可 以 用 来 取 
代 mixin 类 、 多 重 继 承 以 及 对 super(0) 函 数 的 使 用 。 下 
面 束 是 使 用 类 装饰 费 的 备 选 方案 : 








# Base class. Uses a descriptor to set a value 


class Descriptor 


def 


__init__(self, name=None, **opts): 
self.name = name 
for 


key, value in 


opts.items(): 


setattr(self, key, value) 


def 


__set__(self, instance, value): 


instance. __dict__[self.name] = value 


# Decorator for applying type checking 


def 


Typed(expected_type, cls=None): 
if 


cls is 


None: 
return lambda 
cls: Typed(expected_type, cls) 


Super_set = cls.__set__ 
def 


__set__(self, instance, value): 
if 


not 


isinstance(value, expected_type): 
raise TypeError 


('expected ' + str(expected_type) ) 
super_set(self, instance, value) 
cls.__ set = set 
return 





cls 


# Decorator for unsigned values 


def 


Unsigned(cls): 
super_set = cls.__set__ 
def 


__set__(self, instance, value): 
if 


value < 0: 
raise ValueError 


('Expected >= 0') 
super_set(self, instance, value) 
cls.__ set = set 
return 





cls 


# Decorator for allowing sized values 


def 


MaxSized(cls): 
Ssuper_init = cls.__init__ 
def 


__init__(self, name=None, **opts): 
if 


"size' not in 


opts: 
raise TypeError 


('missing size option' ) 
super_init(self, name, **opts) 
cls.__ init = init 





Super_set = cls.__set__ 
def 


__set__(self, instance, value): 
if 


len(value) >= self.size: 
raise ValueError 


('size must be < ' + str(self.size)) 
super_set(self, instance, value) 
cls.__ set = set 
return 





cls 


# Specialized descriptors 


@Typed(int ) 
class Integer 


(Descriptor): 


pass 


@Unsigned 


class UnsignedIinteger 


(Integer): 


pass 


@Typed(float) 


class Float 


(Descriptor): 


pass 


@Unsigned 


class UnsignedFloat 


(Float): 
pass 


@Typed(str) 
class String 


(Descriptor): 
pass 
@MaxSized 


class SizedString 


(String): 
pass 





在 这 个 备 选 方案 中 定义 的 类 能 够 像 之 前 那样 以 





完全 相同 的 方式 工作 (之 前 的 示例 代码 都 不 改 
AR) ， 只 是 每 个 部 分 都 会 比 以 前 运行 得 更 快 。 例 
如 ， 对 设 定 一 个 类 型 属性 做 简单 的 计时 测试 束 能 
现 ， 采 用 类 装饰 器 的 方案 运行 速度 要 比 采 用 mixin 
类 的 方案 几乎 快 上 100%。 读 到 这 里 你 难道 还 会 不 
开心 吗 ? 





8.14 ”实现 日 定义 的 容器 


8.14.1 问题 





我 们 想 实 现 一 个 目 定义 的 类 ， 用 来 模仿 普通 的 
内 建 容 需 关 型 比如 列表 或 者 字典 的 行为 。 但 是 ， 我 
们 并 不 完全 确定 需要 实现 什么 方法 来 完成 。 








8.14.2 ”解决 方案 


collections 库 中 定义 了 各 种 各 样 的 抽象 基 类 ， 
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作 。 要 做 到 这 点 ， 只 要 人 简单 地 从 collections.Iterable 
中 继承 即 可 ， 束 和 像 下 面 这 样 : 




















import collections 


class A 


(collections.Iterable): 


Le 


从 collections.Iterable 中 继承 的 好 处 束 是 可 以 确 
保 必 须 实 现 所 有 所 需 的 特殊 方法 。 如 果 不 这 么 做 ， 
那么 在 实例 化 时 束 会 得 到 错误 信息 : 


>>> 


a= A() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


TypeError: Can't instantiate abstract class A with abstract methg 
>>> 





要 修正 这 个 错误 ， 只 要 在 类 中 实现 所 需 的 
itr (方法 即 可 (参见 4.2 和 4.7 节 ) 。 


在 collections 库 中 还 有 其 他 一 些 值得 一 提 的 
类 ， 包 括 Sequence、MutableSequence、Mapping、 
MutableMapping、Set 以 及 MutableSet。 这 些 类 中 有 
许多 是 按照 功能 层次 的 递增 来 进行 排列 的 〈 例 如 ， 
Container、Iterable、Sized、Seguence 以 及 
MutableSequence 束 是 一 种 递增 陈 的 排列 ) 。 再 次 说 
明 ， 只 要 简单 地 对 这 些 类 进行 实例 化 操作 ， 就 可 以 
知道 需要 实现 哪些 方法 才能 让 自 定 义 的 容器 具有 相 
同 的 行为 : 





>>> import collections 


collections .Sequence( ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: Can't instantiate abstract class Sequence with abstrag 
__getitem_, len 
>>> 








下 面 有 个 徐 单 的 例子 。 我 们 在 目 定 义 类 中 实现 
了 上 述 所 需 的 方法 ， 创 建 了 一 个 Sedquence 类 ， 且 元 
系 总 是 以 排序 后 的 顺序 进行 存储 (我 们 的 例子 实现 
的 不 是 很 高 效 ， 但 能 说 明 大 意 ) : 





import collections 


import bisect 


class SortedItems 


(collections.Sequence): 
def 


__ init__(self, initial=None): 
self. _items = sorted(initial) if initial is None else [] 


# Required sequence methods 


def 


__getitem__(self, index): 
return 


self. _items[ index] 


def 


len__(self): 
return 


len(self._items) 


# Method for adding an item in the right location 


def 


add(self, item): 
bisect.insort(self._items, item) 











下 面 是 使 用 这 个 类 的 例子 : 





>>> 


items = SortediItems([5, 1, 3]) 
>>> 


list(items) 


[1, 3, 5] 
>>> 
items[0] 
1 

>>> 
items[-1] 
5 

>>> 


items.add(2) 
>>> 


list(items ) 
[1, 2, 3, 5] 
>>> 


items.add(-10) 
>>> 


list(items ) 
[-10, 1, 2, 3, 5] 
>>> 


items[1:4] 
[1, 2, 3] 
>>> 


>>> 


len(items ) 





可 以 看 到 ，SortedItems 的 实例 所 表现 出 的 行为 





和 一 个 普通 的 序列 对 象 完全 一 样 ， 并 且 文 持 所 有 各 
见 的 操作 ， 包 括 索 引 、 友 代 、len0、 和 是否 包含 〈in 
操作 符 ) 甚至 是 分 片 。 


顺便 说 一 句 ， 本 节 中 用 到 的 bisect 模 块 能 够 方 
便 地 让 列表 中 的 元 丢人 保持 有 序 。bisect.insortO 函 数 
能 够 将 元 素 插 入 到 列表 中 且 让 列表 仍然 保持 有 序 。 





8.14.3 ”讨论 


从 collections 库 中 提供 的 抽象 基 类 继承 ， 可 确 
保 我 们 的 自 定 义 容器 实现 了 所 有 所 需 的 方法 。 但 
是 ， 这 种 继承 也 便于 我 们 做 类 型 检查 。 











例如 ， 我 们 的 自 定义 容器 将 能 够 满足 各 种 各 样 
的 类 型 检查 : 





items = SortedItems() 
>>> import collections 


isinstance(items, collections.Iterable) 
True 
>>> 


isinstance(items, collections.Sequence) 


isinstance(items, collections.Container ) 


True 
>>> 


isinstance(items, collections.Sized) 
True 


isinstance(items, collections.Mapping) 
False 
>>> 





collections 模 块 中 的 许多 抽象 基 类 还 针对 篆 见 





Kae a 为 了 说 明 ， 假 设 有 一 
类 从 collections.MutableSequence 中 继承 而 来 ， 就 
is 文 样 : 





class Items 


(collections.MutableSequence): 
def 


__ init__(self, initial=None): 
self._items = list(initial) if 


initial is 


None else 


[] 


# Required sequence methods 


def 


__getitem__(self, index): 
print 


('Getting:', index) 
return 
self._items[ index] 
def 


__setitem__(self, index, value): 
print 


('Setting:', index, value) 
self. _items[index] = value 
def 


__delitem__(self, index): 
print 


('Deleting:', index) 
del 
self. _items[ index] 
def 


insert(self, index, value): 
print 


('Inserting:', index, value) 
self. _items.insert(index, value) 


def 


__len__(self): 
print 


('Len' ) 
return 


len(self._items) 





如 果 创 建 一 个 Items 实 例 ， 吏 会 友 现 它 几 乎 文 持 
列表 所 有 的 核心 方法 (例如 append()、remove()、 
count() 等 ) 。 这 些 方法 在 实现 的 时 候 只 使 用 了 所 需 











>>> 


a = Items([1, 2, 3]) 
>>> 


len(a) 
Len 


3 
>>> 


a.append(4) 
Len 

Inserting: 3 4 
>>> 


a.append(2) 
Len 

Inserting: 4 2 
>>> 


a.count(2) 
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a.remove(3) 
Getting: 0 
Getting: 1 
Getting: 2 
Deleting: 2 
>>> 





本 节 仅 仅 只 对 Python 的 抽象 类 功能 做 了 简要 的 
介绍 。numbers 模 块 中 提供 了 与 数值 数据 类 型 相关 








的 类 似 的 抽象 基 类 。 要 获得 更 多 有 关 如 何 创建 目 己 
的 抽象 基 类 的 信息 ， 请 参阅 8.12 市 。 








8.15 ”委托 属性 的 访问 
8.15.1 ”问题 


我 们 想 在 访问 实例 的 属性 时 能 够 将 其 委托 
(delegate) 到 一 个 内 部 持 有 的 对 象 上 ， 这 可 以 作 
为 继承 的 答 代 方案 或 者 是 为 了 实现 一 种 代理 机 制 。 


8.15.2 ”解决 方案 


简单 地 说 ， 委 托 是 一 种 编程 模式 。 我 们 将 某 个 
特定 的 操作 转交 给 (委托) 另 一 个 不 同 的 对 象 实 
Be 地 这 来 说 ， 最 简单 的 委托 形式 看 起 来 是 这 和 




















class A 


def 


Spam(self, x): 
pass 


foo(self): 
pass 


class B 


def 


init__(self): 
self._a = A() 


def 


Spam(self, x): 
# Delegate to the internal self._a instance 


return 


self._a.spam(x) 


def 


foo(self): 
# Delegate to the internal self._a instance 


return 


self._a.foo() 


def 


bar(self): 
pass 





如 果 仅 有 几 个 方法 需要 委托 ， 编 写 像 上 面 那样 








的 代码 是 非常 简单 的 。 但 是 ， 如 果 有 许多 方法 都 需 
要 委托 ， 另 一 种 实现 方式 是 定义 _getattr_() 方 法 ， 
就 像 下 面 这 样 : 











class A 


def 


spam(self, x): 
pa 


def 


foo(self): 
pass 


class B 


def 
__ init__(self): 
self._a = A() 
def 
bar(self): 


pass 


# Expose all of the methods defined on class A 


def 


__getattr__(self, name): 
return 


getattr(self._a, name) 





getattr_() 方 法 能 用 来 得 找 所 有 的 属性 。 如 果 





代码 中 符 试 访问 一 个 并 不 存在 的 属性 ， 就 会 调用 这 
个 方法 。 在 上 面 的 代码 中 ， 我 们 在 访问 B 中 未 定义 
的 方法 时 就 能 把 这 个 操作 委托 给 A。 示 例如 下 : 





b = B() 
b.bar() # Calls B.bar() (exists on B) 


b.spam(42) # Calls B.__getattr__('spam') and delegates to A. 
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# A proxy class that wraps around another object, but 


# exposes its public attributes 


class Proxy 


def 


__ init__(self, obj): 


self._obj = obj 


# Delegate attribute lookup to internal obj 


def 


__getattr__(self, name): 
print 


('getattr:', name) 
return 


getattr(self._obj, name) 
# Delegate attribute assignment 
def 


__setattr__(self, name, value): 
if 


name.startswith('_'): 
super().__setattr__(name, value) 
else 


print 


('setattr:', name, value) 
setattr(self._obj, name, value) 


# Delegate attribute deletion 


def 


__delattr__(self, name): 
if 


name.startswith('_'): 
super().__delattr__(name) 
else 


print 


('delattr:', name) 
delattr(self._obj, name) 
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个 实例 即 可 。 示 例如 下 : 





class Spam 


def 


__init__(self, x): 
self.x = X 
def 


bar(self, y): 
print 


('Spam.bar:', self.x, y) 


# Create an instance 


s = Spam(2) 


# Create a proxy around it 


p = Proxy(s) 


# Access the proxy 


print 

(p.x) # Outputs 2 

p.bar(3) # Outputs "Spam.bar: 2 3" 
p.xX = 37 # Changes s.x to 37 








通过 自 定 义 实现 属性 的 访问 方法 ， 就 可 以 对 代 
理 进行 定制 化 处 理 ， 让 其 表现 出 不 同 的 行为 例 
如 ， 访 问 日 志 、 只 允许 只 读 访 问 等 )。 


8.15.3 ”讨论 


委托 有 时 候 可 以 作为 继承 的 蔡 代 方案 。 例 如 ， 
不 要 编号 下 和 面 这 样 的 代码 : 


class A 


def 


Spam(self, x): 
print 
('A.spam', x) 
def 
foo(self): 
print 
('A.foo') 
class B 


(A): 
def 


Spam(self, x): 
print 


('B.spam' ) 
super().spam(x) 


def 


bar(self): 
print 


('B.bar') 





用 到 了 委托 的 实现 方案 则 会 是 这 样 : 





class A 


def 


Spam(self, x): 
print 


('A.spam', x) 


def 


foo(self): 
print 


('A.foo') 


class B 


def 


__init__(self): 


self._a = A() 


def 


Spam(self, x): 
print 


('B.spam', x) 


self._a.spam(x) 


def 


bar(self): 
print 


('B.bar' ) 


def 


__getattr__(self, name): 
return 


getattr(self._a, name) 





有 时 候 当 直 接 使 用 继承 可 能 没 多 大 意义 ， 或 者 
我 们 想 更 多 地 控制 对 象 之 间 的 关系 〈 例 如 只 骏 露 出 





特定 的 方法 、 实 现 接口 等 ) ， 此 时 使 用 委托 会 很 有 
用 。 





当 使 用 委托 来 实现 代理 时 ， 这 里 还 有 几 个 细节 
需要 注意 。 首 先 ，__getattr__ 0 实际 上 是 一 个 回 滚 
(fallback) 方法 ， 它 只 会 在 某 个 属性 没有 找到 的 时 
候 才 会 调用 。 因 此 ， 如 果 访 问 的 是 代理 实例 本 号 的 
属性 (例如 本 例 中 的 _obj 属 性 ) ， 这 个 方法 就 不 会 
被 触发 调用 。 其 次 ，__setattr _0M_delattr _0 Ù 
法 需要 添加 一 点 额外 的 人 逻辑 来 区 分 代理 实例 本 里 的 
属性 和 内 部 对 象 _obj 上 的 属性 。 第 用 的 惯例 是 代理 











类 只 委托 那些 不 以 下 划 线 开头 的 属性 “ 即 ， 代 理 类 
只 其 露 内 部 对 象 中 的 “公有 ”属性 ) 。 


同样 需要 重点 强调 的 是 __getattr_(0) 方 法 通常 不 
适用 于 大 部 分 名 称 以 双 下 划 线 开头 和 结尾 的 特殊 方 
Be WII, Se Rmx: 











class ListLike 


def 


__ init__(self): 
self._items = [] 
def 


__getattr__(self, name): 
return 


getattr(self._items, name) 





如 果 尝 试 创建 一 个 ListLike 对 象 ， 就 会 发 现 它 
能 文 持 常见 的 列表 方法 ， 例 如 appendO 和 insert()。 
但 是 ， 却 无 法 支持 len()、 查 找 元 素 等 操作 。 示 例如 
下 : 


>>> a = ListLike() 
>>> a.append(2) 


>>> a.insert(0, 1) 
>>> a.sort() 
>>> len(a) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: object of type 'ListLike' has no len() 
>>> a[0] 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: 'ListLike' object does not support indexing 
>>> 








要 文 持 不 同 的 操作 ， 必 须 自行 手动 委托 相应 的 
特殊 方法 。 示 例如 下 : 





class ListLike 


def 


__ init__(self): 
self._items = [] 
def 


__getattr__(self, name): 
return 


getattr(self._items, name) 


# Added special methods to support certain list operations 


def 


__len__(self): 
return 


len(self._items) 
def 


__getitem__(self, index): 
return 


self. _items[ index] 
def 


__setitem__(self, index, value): 
self. _items[index] = value 
def 


__delitem__(self, index): 
del 


self._items[ index] 





请 参见 11.8 市 中 的 力 一 个 例子 ， 我 们 在 创建 代 








理 类 时 利用 委托 来 完成 远 闹 过 程 调 用 。 


8.16 ”在 类 中 定义 多 个 构造 函数 
8.16.1 问题 
我 们 正在 编写 一 个 类 ， 但 是 想 让 用 户 能 够 以 多 


种 方式 创建 实例 ， 而 不 局 限于 _init_0 提 供 的 这 一 
种 。 


8.16.2 ”解决 方案 


要 定义 一 个 含有 多 个 构造 函数 的 类 ， 应 该 使 用 
类 方法 。 下 面 是 一 个 简单 的 示例 ; 





import time 


class Date 


# Primary constructor 


def 


__init__(self, year, month, day): 
self.year = year 


self.month = month 
self.day = day 


# Alternate constructor 


@classmethod 
def 


today(cls): 
t = time.localtime() 
return 


cls(t.tm_year, t.tm_mon, t.tm_mday) 





要 使 用 这 个 备 选 的 构造 水 数 ， 只 要 把 它 当 做 函 
数 来 调用 即 可 ， 例 如 Date.today0 。 示 例如 下 : 


Date(2012, 12, 21) # Primary 


Date. today() # Alternate 





8.16.3 Wit 








类 方法 的 一 大 主要 用 途 就 是 定义 其 他 可 选 的 构 
造 图 数 。 关 方法 的 一 个 关键 特性 就 是 把 关 作 为 其 接 





收 的 第 一 个 参数 (qs) 。 我 们 会 注意 到 ， 类 方法 中 
会 用 到 这 个 类 来 创建 并 返回 最 终 的 实例 。 尽 管 十 分 
微不足道 ， 但 正 是 这 一 特性 使 得 类 方法 能 够 在 继承 
中 被 正确 使 用 。 示 例如 下 : 





class NewDate 


(Date ) : 
pass 


c = Date.today() # Creates an instance of Date (cls=Date) 


d = NewDate.today() # Creates an instance of NewDate (cls=Ne 





当 定 义 一 个 有 看 多 个 构造 函数 的 类 时 ， 应 该 让 
init 0 函数 尽 可 能 简单 一 一 除了 给 属性 赋值 之 外 
什么 都 不 做 。 如 采 需 要 的 话 ， 可 以 在 其 他 备 选 的 构 
造 图 数 中 选择 实现 更 高 级 的 操作 。 


与 单独 定义 一 个 类 方法 不 同 的 是 ， 我 们 可 能 会 
倾 则 于 让 _init_0 方 法文 持 不 同 的 调用 约定 。 示 例 
如 下 : 


class Date 











def 


__init__(self, *args): 
if 


len(args) == 0: 
t = time.localtime() 
args = (t.tm_year, t.tm_mon, t.tm_mday) 
self.year, self.month, self.day = args 
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会 使 代码 变 得 难以 理解 也 不 好 维护 。 比 如 说 ， 这 








种 实现 不 会 展示 出 有 用 的 帮助 字符 串 (没有 参数 名 
称 )。 此 外 ， 创 建 Date 实 例 的 代码 也 会 变 得 不 那么 
清晰 。 比较 下 和 面 几 种 方式 就 能 很 容易 看 出 区 列 : 








a = Date(2012, 12, 21) # Clear. A specific date. 


b = Date() # 2??? What does this do? 


# Class method version 


c = Date.today() # Clear. Today's date. 


根据 上 面 的 示例 ，Date.todayO 会 调用 
Date. init (0) 方 法 ， 以 合适 的 年 份 、 月 份 和 日 期 为 
参数 实例 化 一 个 Date 对 象 。 如 果 有 必要 的 话 ， 甚 至 
可 以 不 调用 _ init_ 0 方法 就 创建 出 类 实例 。 我 们 将 
在 下 一 市 描述 这 种 技术 。 





8.17 不 通过 调用 init 来 创建 实例 
8.17.1 ”问题 


我 们 需要 创建 一 个 实例 ， 但 是 出 于 菜 些 原因 想 
绕 过 init 0 方法 ， 用 别 的 方式 来 创建 。 


8.17.2 ”解决 方案 


可 以 直接 调用 类 的 _new_0 方 法 来 创建 一 个 
未 初始 化 的 实例 。 例 如 ， 考 虑 下 面 这 个 类 : 


class Date 


def 


__init__(self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 





采用 下 面 的 方法 可 以 在 不 调用 _init_0 的 情况 
下 创建 一 个 Date 实 例 : 


>>> d = Date.__new__(Date) 

>>> d 

<__main__.Date object at 0x1006716d0> 
>>> d.year 

Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 
AttributeError: 'Date' object has no attribute 'year' 
>>> 








可 以 看 到 ， 得 到 的 实例 是 未 经 初始 化 的 。 因 
此 ， 给 实例 变量 设 定 合适 的 初始 值 现在 就 成 了 我 们 
的 责任 。 示 例如 下 : 








>>> data = {'year':2012, 'month':8, 'day':29} 
>>> for 


key, value in 


data.items(): 


setattr(d, key, value) 


>>> d.year 
2012 

>>> d.month 
8 

>>> 





8.17.3 ”讨论 


当 需 要 以 非 标准 的 方式 来 创建 实例 时 弟弟 会 遇 
到 需要 绕 过 init_ 0 的 情况 。 比 如 有 反 序 列 化 
(deserializing) 数据 ， 或 者 实现 一 个 类 方法 将 其 作 
为 备 选 的 构造 函数 ， 都 属于 这 种 情况 。 例 如 ， 在 前 
面 给 出 的 Date 类 中 ， 有 人 可 能 会 定义 一 个 可 选 的 构 
ist PA BLtoday(): 








from time import 


localtime 


class Date 


def 


__init__(self, year, month, day): 
self.year = year 
self.month = month 
self.day = day 


@classmethod 
def 


today(cls): 

d cls.__new__(cls) 
t localtime() 
d.year = t.tm_year 
d.month = t.tm_mon 
d.day = t.tm_mday 
return 


关 似 地 ， 假 设 正 在 反 序 列 化 JSON 数 据 ， 要 产 
生 一 个 下 面 这 样 的 字典 : 


data = { 'year': 2012, 'month': 8, ' 








如 果 想 将 这 个 字典 转换 为 一 个 Date 实 例 ， 只 要 
使 用 解决 方案 中 给 出 的 技术 即 可 。 


当 需 要 以 非 标 准 的 方式 创建 实例 时 ， 通 常 最 好 
不 要 对 它们 的 实现 做 过 多 假设 。 因 此 ， 一 般 来 说 不 
要 编写 直接 操纵 底层 实例 字典 _dict_ 的 代码 ， 除 
非 能 保证 它 已 被 定义 。 人 否则 ， 如 果 类 中 使 用 了 
slots _、Pproperty 属 性 、 摘 述 符 或 者 其 他 高 级 技 
术 ， 那 么 代码 束 会 朋 沉 。 通 过 使 用 setattr(0) 来 为 属性 
设 定 值 ， 代 人 码 束 会 尽 可 能 的 通用 。 





8.18 ”用 Mixin 技 术 来 扩展 类 和 定义 
8.18.1 问题 


我 们 有 一 些 十 分 有 用 的 方法 ， 和 希望 用 它们 来 扩 
展 其 他 类 的 功能 。 但 是 ， 需 要 添加 方法 的 这 些 类 之 
间 并 不 一 定 属于 继承 关系 。 因 此 ， 没 法 将 这 些 方法 
直接 关联 到 一 个 共同 的 基 类 上 。 














8.18.2 ”解决 方法 


本 节 提 到 的 问题 在 需要 对 类 进行 定制 化 处 理 时 
通常 会 出 现 。 例 如 ， 某 个 库 提供 了 一 组 基础 类 以 及 
一 些 可 选 的 定制 化 方法 ， 如 果 用 户 需 要 的 话 可 以 自 
行 添加 。 


为 了 说 明 清 楚 ， 现 在 假设 我 们 有 兴趣 将 各 式 各 
样 的 定制 化 处 理 方法 (例如 ， 日 志 记 录 、 类 型 检查 
等 ) 添加 到 映射 型 对 象 (mapping object) E. FH 
有 一 组 mixin 类 来 完成 这 项 任务 : 














class LoggedMappingMixin 


Add logging to get/set/delete operations for debugging. 


__getitem__(self, key): 
print 


('Getting ' + str(key)) 
return 


super().__getitem__(key) 


def 


__setitem__(self, key, value): 
print 


('Setting {} = {!r}'.format(key, value) ) 
return 


Super().__setitem__(key, value) 


def 


__delitem__(self, key): 
print 


('Deleting ' + str(key)) 
return 


super().__delitem__(key) 


class SetOnceMappingMixin 


Only allow a key to be set once. 


Slots = () 
def 


__setitem__(self, key, value): 
if 


key in 


self: 
raise KeyError 


(str(key) + ' already set') 
return 


super().__setitem__(key, value) 


class StringKeysMappingMixin 


Restrict keys to strings only 


__setitem__(self, key, value): 
if 


isinstance(key, str): 
raise TypeError 


('keys must be strings') 
return 


super().__setitem__(key, value) 








这 些 类 本 刁 是 无 用 的 。 实 际 上 ， 如 采 实 例 化 它 
们 中 的 任何 一 个 ， 一 点 儿 有 用 的 事情 都 做 不 了 《 除 





了 会 产生 异常 之 外 ) 。 相 反 ， 这 些 类 存在 的 意义 是 
要 和 其 他 映射 型 类 通过 多 重 继承 的 方式 混合 在 一 起 
使 用 。 示 例如 下 : 





>>> class LoggedDict 


PaO pe T dict): 
pass 


d = LoggedDict( ) 
>>> 


d['x'] = 23 
Setting 
>>> 


23 


x 
lI 


d['x'] 
Getting x 
23 
>>> 


del 
d['x'] 
Deleting x 


>>> from collections import 


defaultdict 
>>> class SetOnceDefaultDict 


(SetOnceMappingMixin, defaultdict): 
pass 
>>> 
d = SetOnceDefaultDict(list) 


>>> 


d['x'].append(2) 
>>> 


d['y'].append(3) 
>>> 


d['x'].append(10) 
>>> 


d['x'] = 23 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "mixin.py", line 24, in __setitem__ 
raise KeyError 


(str(key) + ' already set') 
KeyError: 'x already set' 
>>> from collections import 


OrderedDict 
>>> class StringOrderedDict 


(StringKeysMappingMixin, 
rts SetOnceMappingMixin, 
OrderedDict ): 

pass 


>>> 


d = StringOrderedDict() 


>>> 
dix’) S23 
>>> 
d[42] = 10 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


File "mixin.py", line 45, in __setitem__ 


TypeError: keys must be strings 
>>> 


d['x'] = 42 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "mixin.py", line 46, in __setitem__ 


__ slots__ = 
File "mixin.py", line 24, in __setitem__ 
if 
key in self: 
KeyError: 'x already set' 
>>> 





在 上 面 的 示例 中 ， 可 以 发 现 这 些 mixin 类 和 其 
他 已 有 的 类 (例如: dict、defaultdict、 
OrderedDict) 结合 在 了 一 起 。 当 它们 混合 在 一 起 
时 ， 所 有 的 类 通过 一 起 工作 提供 所 需 的 功能 。 


8.18.3 ”讨论 


Python 标准 库 中 到 处 都 是 mixin 类 的 身影 ， 大 部 
分 都 是 为 了 扩展 其 他 类 的 功能 而 创建 的 ， 就 和 我 们 
展示 的 示例 类 似 。mixin 类 也 是 多 重 继承 的 主要 用 
途 之 一 。 人 例如， 如果 正在 编写 网 络 功能 方面 的 代 
人 码 ， 通 党 可 以 使 用 socketserver 模 块 中 的 
ThreadingMixIn 类 来 为 其 他 网 络 相关 的 类 添加 对 线 











程 的 文 持 。 例 如 ， 下 面 是 一 个 多 线程 版 的 XML- 
RPC 服 务 器 : 
from xmlrpc.server import 


SimpleXMLRPCServer 
from socketserver import 


ThreadingMixIn 
class ThreadedXMLRPCServer 


(ThreadingMixIn, SimpleXMLRPCServer ) : 
pass 





我 们 在 大 型 的 库 和 框 染 中 也 能 党 看 到 mixin 类 
同样 地 ， 一 般 都 是 为 了 对 已 有 的 类 增加 一 些 可 
选 的 功能 特性 。 


关于 mixin 类 的 理论 ， 历 史上 有 看 许多 讨论 。 
但 是 ， 我 们 不 再 深入 挖掘 所 有 的 细节 ， 只 需要 记 住 
几 个 重要 的 实现 细节 就 够 了 。 


首先 ，mixin 类 绝 不 是 为 了 直接 实例 化 而 创建 
的 。 例 如 ， 本 市 中 所 有 的 mixin 类 痢 不 能 独 目 工 
作 。 它 们 必须 同 男 一 个 实现 了 所 需 的 映射 功能 的 类 























混合 在 一 起 用 才 行 。 同 样 地 ， socketserver 模 块 中 的 
ThreadingMixIn 类 也 必须 同 某 个 合适 的 server 类 泥 合 
在 一 起 用 才 行 光 靠 它 目 己 没 用 。 


其 次 ，mixin 类 一 般 来 说 是 没有 状态 的 。 这 意 
味 着 mixin 类 没有 ”init 0 方法 ， 也 没有 实例 变 
量 。 在 本 节 中 ， 我 们 定义 的 _slots = 0 就 是 一 种 
的 提示 ， 这 表示 mixin 类 没有 属于 目 己 的 实例 
数据 。 


如 有 果 考 虑 定义 一 个 拥有 __init_0 方 法 以 及 实例 
变量 的 mixin 类 ， 请 注意 这 里 会 有 极 大 的 风险 ， 因 
为 这 个 类 并 不 知道 自己 要 和 哪些 其 他 的 类 混合 在 一 
起 。 因 此 ， 任 何 要 创建 出 的 实例 变量 都 必须 以 某 种 
方式 加 以 命名 ， 以 此 避免 出 现 命 名 冲突 。 此 外 ， 
mixin 类 的 _init_0 〇 方法 必须 要 能 合适 地 调用 其 他 
混合 进来 的 类 的 _init_0 方 法。 一 般 来 说 这 很 难 实 
现 ， 因 为 不 知道 其 他 类 的 参数 签名 是 什么 。 人 至 少 ， 
我 们 必须 得 实现 非常 通用 的 参数 签名 ， 这 需要 用 到 
* kwargs。 如 果 mixin 类 的 _init 0) 方法 目 号 

囊 有 参数 ， 那 么 那些 参数 应 该 只 能 通过 关键 字 来 
a FFA Ea A EAE AX TH, E 

命名 冲突 。 对 于 定义 了 一 个 _init_ 0) 方法 且 接 受 一 
个 关键 字 参 数 的 mixin 关 ， 下 面 给 出 了 一 种 可 能 的 
实现 方法 : 






































class RestrictKeysMixin 


def 


__init__(self, *args, _restrict_key_type, **kwargs): 
self.__restrict_key_type = _restrict_key_type 
Super().__init__(*args, **kwargs) 


def 


__setitem__(self, key, value): 
if not 


isinstance(key, self.__restrict_key_type): 
raise TypeError 


('Keys must be ' + str(self.__restrict_key_type) ) 
super().__setitem__(key, value) 








下 面 的 例子 展示 了 这 个 类 应 该 如 何 使 用 : 





>>> class RDict 


(RestrictKeysMixin, dict): 
pass 


>>> 


d = RDict(_restrict_key_type=str) 
>>> 


e = RDict([('name', 'Dave'), ('n',37)], _restrict_key_type=str ) 
>>> 


f = RDict(name='Dave', n=37, _restrict_key_type=str ) 
>>> 


{'n': 37, 'name': 'Dave'} 


f[42] = 10 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "mixin.py", line 83, in __setitem__ 
raise TypeError 


('Keys must be ' + str(self.__restrict_key_type) ) 
TypeError: Keys must be <class 'str'> 
>>> 





在 这 个 例子 中 ， 可 以 注意 到 初始 化 RDictO 时 仍 
然 珊 有 可 被 dictO) 所 接受 的 参数 ， 但 是 有 一 个 额外 的 
关键 字 参 数 restrict_key_type 是 提供 给 mixin 类 的 。 


最 后 ， 使 用 SuperO 函 数 是 必要 的 ， 这 也 是 编写 
mixin 类 的 关键 部 分 。 在 解决 方案 中 ， 这 些 类 重新 
定义 了 一 些 特定 的 关键 方法 ， 比 如 _ getitem 0 和 
_ setitem_ ()。 但 是 ， 它 们 也 需要 调用 这 些 方法 的 





原始 版 本 。 通 过 使 用 super()， 将 这 个 任务 转交 给 了 
方法 解析 顺序 MRO) 上 的 下 一 个 类 。 本 节 中 的 这 
部 分 内 容 对 于 Python 新 手 来 说 可 能 不 是 那么 容易 理 
解 ， 因 为 我 们 在 没有 父 类 的 类 中 使 用 了 superO WI 
看 上 去 感觉 好 像 是 个 错误 ) 。 但 是 ， 对 于 类 似 下 面 
这 样 的 类 定义 : 











class LoggedDict 


(LoggedMappingMixin, dict): 
pass 





在 LoggedMappingMixin 中 使 用 super(O 函 数 会 把 
任务 转交 到 多 重 继 承 列表 中 的 下 一 个 类 上 。 也 就 是 
说 ， 在 LoggedMappingMixin 中 调用 
super().， getitem (实际 上 会 调用 
dict. getitem”()。 如 果 没 有 这 种 行为 ，mixin 类 根 
本 没 法 正常 工作 。 


实现 mixin 的 男 一 种 方法 是 利用 类 装饰 顷 。 例 
如 ， 考 虑 如 下 的 代码 : 


LoggedMapping(cls): 
cls_getitem = cls. getitem _ 
cls_setitem = cls. setitem _ 
cls_delitem = cls.__delitem__ 
def 


__getitem__(self, key): 
print 


('Getting ' + str(key)) 
return 


cls_getitem(self, key) 


def 


__setitem__(self, key, value): 
print 


('Setting {} = {!r}'.format(key, value) ) 
return 


cls_setitem(self, key, value) 


def 


__delitem__(self, key): 
print 


('Deleting ' + str(key)) 
return 


cls_delitem(self, key) 


cls. getitem = __getitem__ 
cls. setitem = setitem _ 
cls. delitem = _ delitem _ 
return 

cls 





我 们 把 这 个 函数 作为 装饰 器 添加 到 类 定义 上 。 
例如 : 


@LoggedMapping 
class LoggedDict 


(dict): 
pass 





如 果 试 着 这 么 人 做， 就 会 发 现 能 得 到 相同 的 行 
为 ， 但 是 却 完全 不 再 涉及 多 重 继承 了 。 相 反 ， 装 饰 
器 在 这 里 只 是 对 类 定义 做 了 一 点 点 修改 ， 从 而 蔡 换 





挥 特定 的 方法 。 有 关 类 效 饰 占 的 更 多 细节 可 在 9.12 
PPRS. 


8.13 节 中 有 一 个 高 级 的 示例 ， 其 中 同时 用 到 了 
mixin 技 术 和 类 装饰 器 。 











8.19 ”实现 市 有 状态 的 对 象 或 状态 
机 
8.19.1 问题 

我 们 想 实 现 一 个 状态 机 ， 或 者 让 对 象 可 以 在 不 


同 的 状态 中 进行 操作 。 但 是 我 们 并 不 希望 代码 里 会 
因此 出 现 大 量 的 条 件 判断 。 





8.19.2 ”解决 方案 


在 东 些 应 用 程序 中 ， 我 们 可 能 会 让 对 象 根 据 菏 
种 内 部 状态 来 进行 不 同 的 操作 。 例 如 ， 考 虑 下 和 面 这 
个 代表 网 络 连接 的 类 : 











class Connection 


def 
__ init__(self): 
self.state = 'CLOSED' 


def 


read(self): 


if 


self.state != 'OPEN': 
raise RuntimeError 


('Not open') 
print 
('reading' ) 
def 


write(self, data): 
if 


self.state != 'OPEN': 
raise RuntimeError 


('Not open') 
print 
('writing' ) 
def 


open(self): 
if 


self.state == 'OPEN': 
raise RuntimeError 


('Already open' ) 
self.state = 'OPEN' 


def 


close(self): 
if 


self.state == 'CLOSED': 
raise RuntimeError 


('Already closed' ) 
self.state = 'CLOSED' 








这 份 代码 为 我 们 提出 了 几 个 难题 。 首 先 ， 由 于 
代码 中 引入 了 许多 针对 状态 的 条 件 检 查 ， 代 人 码 变 得 
很 复杂 。 其 次 ， 程 序 的 性 能 下 降 了 。 因 为 普通 的 操 
作 如 读 〈read0) 和 写 (write0) 总 是 要 在 处 理 前 先 
检查 状态 。 


一 个 更 加 优雅 的 方式 是 将 每 种 操作 状态 以 一 个 
单独 的 类 来 定义 ， 然 后 在 Connection 类 中 使 用 这 些 
状态 类 。 示 例如 下 : 





class Connection 


def 


__ init__(self): 
self.new_state(ClosedConnectionState) 


def 


new_state(self, newstate): 
self._state = newstate 


# Delegate to the state class 


def 


read(self): 
return 


self. _state.read(self) 


def 


write(self, data): 
return 


self. _state.write(self, data) 


def 


open(self): 
return 


self._state.open(self ) 


def 


close(self): 
return 


self._state.close(self) 


# Connection state base class 


class ConnectionState 


@staticmethod 
def 


read(conn): 
raise NotImplementedError 


() 
@staticmethod 
def 


write(conn, data): 
raise NotImplementedError 


() 
@staticmethod 
def 


open(conn): 
raise NotImplementedError 
() 
@staticmethod 


def 


close(conn): 
raise NotImplementedError 


() 


# Implementation of different states 


class ClosedConnectionState 


(ConnectionState): 
@staticmethod 
def 


read(conn): 
raise RuntimeError 
('Not open') 


@staticmethod 
def 


write(conn, data): 
raise RuntimeError 
('Not open') 


@staticmethod 
def 


open(conn): 
conn.new_state(OpenConnectionState) 
@staticmethod 


def 


close(conn): 
raise RuntimeError 


('Already closed' ) 
class OpenConnectionState 
(ConnectionState): 


@staticmethod 
def 


read(conn): 
print 
('reading' ) 
@staticmethod 


def 


write(conn, data): 
print 
('writing' ) 
@staticmethod 


def 


open(conn): 
raise RuntimeError 
('Already open' ) 


@staticmethod 
def 


close(conn): 
conn.new_state(ClosedConnectionState) 








下 面 的 交互 式 会 话说 明了 这 些 类 的 用 法 : 


>>> c = Connection() 
>>> c._state 
<class '__main__.ClosedConnectionState'> 
>>> c.read() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example.py", line 10, in read 
return 


self. _state.read(self) 
File "example.py", line 43, in read 
raise RuntimeError 


('Not open') 

RuntimeError: Not open 

>>> c.open() 

>>> c._ state 

<class '__main__.OpenConnectionState'> 
>>> c.read() 

reading 

>>> c.write('hello' ) 

writing 

>>> c.close() 

>>> c._ state 

<class '__main__.ClosedConnectionState'> 
>>> 





8.19.3 ”讨论 


编写 含有 大 量 复杂 的 条 件 判 断 并 和 各 种 状态 纠 
缠 在 一 起 的 代码 是 难以 维护 和 解读 的 。 本 节 给 出 的 
解决 方案 通过 将 各 个 状态 分 解 为 单独 的 类 来 避免 这 





个 问题 。 


可 能 看 起 来 有 些 奇怪 ， 这 里 每 种 状态 都 用 类 和 
静态 方法 来 实现 ， 在 每 个 静态 方法 中 都 把 
Connection 类 的 实例 作为 第 一 个 参数 。 产 生 这 种 设 
计 的 原因 在 于 我 们 决定 在 不 同 的 状态 类 中 不 保存 任 


Connection 实 例 中 。 将 所 有 的 状态 放 在 一 个 公共 的 
其 类 下 ， 这 么 做 的 大 部 分 原因 是 为 了 帮助 组 织 代 
人 码 ， 并 确保 适当 的 方法 得 到 了 实现 。 在 基 类 方法 中 
出 现 的 NotImplementedError 异 党 是 为 了 确保 在 子 类 
中 实现 了 所 需 的 方法 。 作 为 葵 代 方案 ， 可 以 考虑 使 
用 8.12 和 中 搞 述 过 的 抽象 基 类 。 


另 一 种 实现 方法 是 考虑 去 直接 修改 实例 的 
_Cclass_ 属性 。 示 例如 下 : 









































class Connection 


def 


__ init__(self): 
self.new_state(ClosedConnection) 


def 


new_state(self, newstate): 
self. class = newstate 


def 


read(self): 


raise NotImplementedError 


def 


write(self, data): 


raise NotImplementedError 


def 


open(self): 


raise NotImplementedError 


def 


close(self): 
raise NotImplementedError 


() 


class ClosedConnection 


(Connection): 
def 


read(self): 


raise RuntimeError 


('Not open') 
def 


write(self, data): 
raise RuntimeError 


('Not open') 
def 
open(self): 
self .new_state(OpenConnection) 


def 


close(self): 
raise RuntimeError 


('Already closed' ) 


class OpenConnection 


(Connection): 
def 


read(self): 
print 


('reading' ) 


def 


write(self, data): 


print 


('writing' ) 


def 


open(self): 
raise RuntimeError 


('Already open' ) 


def 


close(self): 
self.new_state(ClosedConnection) 








这 种 实现 方法 的 主要 特点 束 是 消除 了 额外 的 间 
接 关 系 。 这 里 不 再 将 Connection 和 ConnectionState 
作为 单独 的 类 来 实现 ， 现 在 我 们 将 它们 合并 在 一 起 





了 。 随 着 状态 的 改变 ， 实 例 也 会 修改 上 自己 的 类 型 。 
示例 如 下 : 





>>> c = Connection( ) 


>>> C 
<__main__.ClosedConnection object at 0x1006718d0> 
>>> c.read() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "state.py", line 15, in read 
raise RuntimeError 


('Not open') 
RuntimeError: Not open 


>>> c.open() 

>>> C 

<__main__.OpenConnection object at 0x1006718d0> 
>>> c.read() 

reading 

>>> c.close() 


<__main__.ClosedConnection object at 0x1006718d0> 








EAX Be hag EA tS SK H BSE 
HJ class 属性 的 做 法 。 但 是 在 技术 上 是 允许 这 么 
做 的 。 上 此外， 这么 做 也 会 让 代码 的 执行 速度 更 快 
些 ， 因 为 现在 调用 connection 上 的 所 有 方法 都 不 必 





再 经 过 一 层 额 外 的 间接 步骤 了 。 


最 后 ， 无 论 上 面 哪 种 扩 术 对 于 实现 复杂 的 状态 
机 都 是 很 有 用 的 一 一 尤其 是 在 那些 可 能 出 现 大 量 的 
if-elif-else 块 的 代码 中 。 示 例如 下 : 














# Original implementation 


class State 


def 


__ init__(self): 
self.state = 'A' 
def 


action(self, x): 


if 
state == 'A': 
# Action for A 
state = 'B' 
elif 
state == 'B': 
# Action for B 
state = 'C' 
elif 
state == 'C': 


# Action for C 


state = 'A' 


# Alternative implementation 


class State 


def 


__ init__(self): 
self .new_state(State_A) 


def 
new_state(self, state): 
self. class = state 
def 


action(self, x): 
raise NotImplementedError 


() 


class State A 


(State): 
def 


action(self, x): 


# Action for A 


self .new_state(State_B) 


class State B 


(State): 
def 


action(self, x): 
# Action for B 


self.new_state(State_C) 


class State C 


(State): 
def 


action(self, x): 
# Action for C 


self .new_state(State_A) 





本 节 大 体 上 是 基于 Design Patterns: Elements of 
Resuable Object-Oriented Software ( Addison- 





Wesley, 1995) 一 书 中 有 关 状 态 模 式 的 内 容 来 编写 
的 。 


8.20 ”调用 对 象 上 的 方法 ， 方 法 名 
以 字符 串 形 式 给 出 


8.20.1 问题 





我 们 想 调 用 对 象 上 的 菏 个 方法 ， 现 在 这 个 方法 
名 保存 在 字符 串 中 ， 我 们 想 通 过 它 来 调用 该 方法 。 


8.20.2 ”解决 方案 
对 于 简单 的 情况 ， 可 能 会 使 用 getattr()， 示 例如 
下 : 














import math 


class Point 


def 


self. 


n 
D 
= 
—h 
< x 


__repr__(self): 
return 


"Point({!r:},{!r:})'.format(self.x, self.y) 


def 


distance(self, x, y): 
return 


math. hypot(self.x - x, self.y - y) 


Point(2, 3) 
getattr(p, 'distance')(0, 0) # Calls p.distance(0, 0) 


p 
d 





另 一 种 方法 是 使 用 operator.methodcaller()。 示 
例如 下 : 


import operator 


operator.methodcaller('distance', 0, 0)(p) 








如 果 想 通过 名 称 来 查询 方法 并 提供 同样 的 参数 
反复 调用 该 方法 ， 那 么 operator.methodcall() 是 很 有 


用 的 。 例 如 ， 如 果 你 要 对 一 整 列 点 对 象 排序 : 


points = [ 
Point(1, 2), 
Point(3, 0), 
Point(10, -3), 
Point(-5, -7), 
Point(-1, 8), 
Point(3, 2) 


] 


# Sort by distance from origin (0, 0) 


points.sort(key=operator.methodcaller('distance', 0, 0)) 





8.20.3 Wir 


调用 一 个 方法 实际 上 涉及 两 个 单独 的 步骤 ， 一 
是 查询 属性 ， 二 是 函数 调用 。 因 此 ， 要 调用 一 个 方 
法 ， 可 以 使 用 getattr0 来 查询 相应 的 属性 。 要 调用 查 
询 到 的 方法 ， 只 要 把 查询 的 结果 当做 函数 即 可 。 








operator.methodcallO 创 建 了 一 个 可 调用 对 象 ， 
而 且 把 所 需 的 参数 提供 给 了 被 调 用 的 方法 。 我 们 所 
要 做 的 就 是 提供 恰当 的 self 参 数 即 可 。 示 例如 下 : 





>>> p = Point(3, 4) 

>>> d = operator.methodcaller('distance', ©, 0) 
>>> d(p) 

5.0 





通过 包含 在 字符 串 中 的 名 称 来 调用 方法 ， 这 种 
方式 时 和 常 出 现在 需要 模拟 case 语 句 或 者 访问 者 模式 
的 变 体 中 。 下 一 节 中 将 有 更 加 高 级 的 示例 。 

















8.21 ”实现 访问 者 模式 
8.21.1 问题 


我 们 需要 编写 代 人 码 来 处 理 或 过 历 一 个 由 许多 不 
同类 型 的 对 象 组 成 的 复杂 数据 结构 ， 每 种 类 型 的 对 
象 处 理 的 方式 都 不 相同 。 例 如 过 历 一 个 树 结 构 ， 根 
据 遇 到 的 树 贡 点 的 关 型 来 执行 不 同 的 操作 。 








8.21.2 ”解决 方案 


本 市 所 到 的 这 个 问题 第 常 出 现在 由 大 量 不 同类 
型 的 对 象 组 成 的 数据 结构 的 程序 中 。 为 了 说 明 ， 假 
设 我 们 正在 编写 一 个 表示 数学 运算 的 程序 。 要 实现 
这 个 功能 ， 程 序 中 会 用 到 一 些 类 ， 示 例如 下 : 




















class Node 


pass 


class UnaryOperator 


(Node): 


def 
__init__(self, operand): 
self.operand = operand 


class BinaryOperator 


(Node): 
def 


__ init__(self, left, right): 
self.left = left 
self.right = right 

class Add 

(BinaryOperator ) : 

pass 

class Sub 

(BinaryOperator ) : 

pass 

class Mul 

(BinaryOperator ) : 


pass 


class Div 


(BinaryOperator ) : 


pass 


class Negate 


(UnaryOperator): 


pass 


class Number 


(Node): 
def 


__init__(self, value): 
self.value = value 








之 后 ， 我 们 可 以 用 这 些 类 来 构建 能 套 式 的 数据 
ZR), WRIA: 





# Representation of 1 + 2 * (3 - 4) /5 


t1 = Sub(Number(3), Number(4) ) 
t2 = Mul(Number(2), t1) 
t3 = Div(t2, Number(5)) 
t4 = Add(Number(1), t3) 


| 


问题 不 在 创建 这 些 数据 结构 上 ， 而 是 在 稍 后 编 
写 处 理 它们 的 代码 时 。 例 如 ， 给 定 一 个 表达 式 ， 程 
序 可 能 要 做 很 多 事情 ， 比 如 产生 输出 、 生 成 指令 、 
DUT FAG EAL aS RES o 


为 了 能 让 处 理 过 程 变 得 通用 ， 一 种 常见 的 解决 


方案 束 是 实现 所 谓 的 “访问 者 模式 *。 我 们 需要 使 用 
类 似 下 面 这 样 的 类 : 











class NodeVisitor 


def 


visit(self, node): 


methname = 'visit_' + type(node). name _ 
meth = getattr(self, methname, None) 
if 
meth is 
None: 
meth = self.generic_visit 
return 
meth(node) 


def 


generic_visit(self, node): 
raise RuntimeError 


('No {} method'.format('visit_' + type(node).__name_)) 





要 使 用 这 个 类 ， 程 序 员 从 该 类 中 继承 并 实现 各 





种 visit_Name() 方 法 ， 这 里 的 Name 应 该 由 市 点 的 类 
型 来 替换 。 例 如 ， 如 果 想 对 表达 式 求 值 ， 那 么 可 以 
编写 这 样 的 代码 : 





class Evaluator 


(NodeVisitor): 
def 


visit_Number(self, node): 
return 


node.value 


def 


visit_Add(self, node): 
return 


self.visit(node.left) + self.visit(node.right) 


def 


visit_Sub(self, node): 


return 


self.visit(node.left) - self.visit(node.right) 


def 


visit_Mul(self, node): 
return 


self.visit(node.left) * self.visit(node.right) 


def 


visit_Div(self, node): 
return 


self.visit(node.left) / self.visit(node.right) 


def 


visit_Negate(self, node): 
return 


-node.operand 





下 面 这 个 例子 展示 如 何 使 用 这 个 类 来 计算 前 面 
生成 的 表达 式 : 


>>> e = Evaluator() 
>>> e.visit(t4) 

0.6 

>>> 





[L SCR 


作为 男 一 个 完全 不 同 的 例子 ， 下 面 这 个 类 可 以 
将 表达 式 翻译 为 堆栈 机 (stack machine) 上 的 指令 
序列 : 





class StackCode 


(NodeVisitor): 
def 


generate_code(self, node): 
self.instructions = [] 
self.visit (node) 
return 


self.instructions 


def 


visit_Number(self, node): 
self.instructions.append(('PUSH', node.value) ) 


def 


binop(self, node, instruction): 
self.visit(node.left) 
self.visit(node.right ) 
self.instructions.append( (instruction, ) ) 


def 


visit_Add(self, node): 
self.binop(node, 'ADD') 


def 


visit_Sub(self, node): 
self.binop(node, 'SUB') 


def 


visit_Mul(self, node): 
self.binop(node, 'MUL') 


def 


visit_Div(self, node): 
self.binop(node, 'DIV') 


def 


unaryop(self, node, instruction): 
self.visit(node.operand) 
self.instructions.append( (instruction, ) ) 


def 


visit_Negate(self, node): 
self.unaryop(node, 'NEG') 





如 何 使 用 这 个 类 呢 ? 示例 如 下 : 





>>> s = StackCode() 

>>> s.generate_code(t4) 

[('PUSH', 1), ('PUSH', 2), ('PUSH', 3), ('PUSH', 4), ('SUB',), 
('MUL',), ('PUSH', 5), (‘DIV',), ('ADD', )] 

>>> 


8.21.3 ”讨论 


本 节 涵 盖 了 两 个 核心 思想 。 首 先是 设计 策略 ， 
即 把 操作 复杂 数据 结构 的 代码 和 数据 结构 本 号 进行 
解 耘 。 也 束 是 说 ， 本 节 中 没有 任何 一 个 Node 类 的 实 
现 有 对 数据 进行 操作 。 相 反 ， 所 有 对 数据 的 处 理 都 
放 在 特定 的 NodeVisitor 类 中 实现 。 这 种 隔离 使 得 代 
人 码 变 得 非常 通用 。 


本 节 的 第 二 个 核心 思想 在 于 对 访问 者 类 本 里 的 
实现 。 在 访问 者 中 ， 你 想 根 据 东 些 值 比如 节操 类 型 
来 调度 不 同 的 处 理 方法 。 一 种 幼稚 的 做 法 是 会 编写 
大 量 的 让 语句 ， 就 像 下 面 这 样 : 




















class NodeVisitor 


def 


visit(self, node): 
nodetype = type(node).__name__ 
i 


nodetype == 'Number': 
return 


self .visit_Number (node) 
elif 


nodetype == 'Add': 
return 


self.visit_Add(node) 
eli 


nodetype == 'Sub': 
return 


self.visit_Sub(node) 








但 是 ， 很 快 就 会 及 现 这 种 做 法 明显 行 不 通 。 除 
SARAH, WATER HIRI. MR A 
修改 要 处 理 的 节操 类 型 则 会 难以 维护 。 相 反 ， 如 果 
通过 一 些小 扩 巧 将 方法 名 构建 出 来 ， 再 利用 getattr() 








函数 来 获取 方法 则 会 好 得 多 。 解 决 方案 中 的 
generic_visit() 丰 应 该 匹配 到 任何 处 理 方 法 ， 它 是 一 
种 异常 回 退 机 制 。 在 本 市 中 ，generic_visit() 会 抛 出 


一 个 卉 党 来 警告 程序 员 过 到 了 一 个 未 知 的 节 扣 类 
型 。 














在 每 个 访问 者 类 中 ， 和 第 会 通过 对 visit(0) 方 法 
进行 递归 调用 来 完成 计算 。 示 例如 下 : 


class Evaluator 





(NodeVisitor): 
def 
visit_Add(self, node): 


return 


self.visit(node.left) + self.visit(node.right) 








正 是 由 于 化 归 才 使 得 访问 者 类 可 以 遍历 整个 数 





据 结 构 。 本 质 上 说 就 是 不 断 调 用 visitO 直 到 到 达 某 
个 终止 节点 ， 比 如 示例 中 的 Number。 递 归 和 其 他 操 


作 的 确切 顺序 完全 取决 于 应 用 程序 。 


应 该 提 到 的 是 ， 这 种 调度 方法 的 技术 在 其 他 语 
寞 中 也 第 用 来 模拟 开关 行为 或 者 条 件 语句 。 例 如 ， 
如 果 我 们 正在 编写 一 个 HTTP 框 架 ， 我 们 在 类 中 也 
会 实现 类 似 的 方法 调度 





class HTTPHandler 


def 


handle(self, request): 
methname = 'do_' + request.request_method 


getattr(self, methname) (request) 


def 


do_GET(self, request): 


def 


do_POST(self, request): 


def 


do_HEAD(self, request): 








访问 者 模式 的 一 个 缺点 就 是 需要 重度 依赖 于 递 
归 。 如 果 要 处 理 一 个 深度 骸 套 的 数据 结构 ， 那 么 有 
可 能 会 达到 Python 的 递归 深度 限制 (但 看 
sys.getrecursionlimit() 的 结果 )〉 。 要 避免 这 个 问题 ， 
可 以 在 构建 数据 结构 时 做 一 些 特 定 的 选择 。 例 如 ， 
可 以 使 用 普通 的 Python 列表 来 蔡 代 链表 ， 或 者 在 每 
个 广 点 中 聚合 更 多 数据 ， 使 得 数据 变 得 局 平 化 而 不 
FETA FERRE 


tH, FY ARAA H E Satis AIS A ait SE EE VA 
的 过 历 拭 法 ， 具 体内 容 可 参见 8.22 证 。 


在 有 关 解 析 和 编译 的 程序 中 使 用 访问 者 模式 是 
非 第 常见 的 。 在 Python 目 带 的 ast 模 块 中 可 以 找到 一 
个 实现 。 除 了 可 以 遍历 树 结 构 之 外 ， 在 亿 历 的 同时 
还 允许 对 数据 结构 进行 改写 或 转换 (例如 添加 节 扣 








或 移 除 节点 ) 。 具 体 细 节 可 查看 ast 模 块 的 源码 。 
9.24 市 中 展示 了 一 个 利用 ast 模 块 来 处 理 Python 源 代 
ASH PF 


8.22 ”实现 非 递 归 的 访问 者 模式 
8.22.1 问题 


我 们 使 用 访问 者 模式 来 忆 历 一 个 深度 髓 套 的 树 
结构 ， 但 由 于 超出 了 Python 的 递归 限制 而 月 尝 。 我 
Se 5 
格 。 


8.22.2 ”解决 方案 


巧妙 利用 生成 器 有 时 候 可 用 来 消除 树 的 志 历 或 
查找 算法 中 的 递归 。 在 8.21 节 中 ， 我 们 已 经 给 出 了 
一 个 人 访问 者 类 。 下 面 是 这 个 类 的 为 一 种 实现 方式 ， 
通过 堆栈 和 生成 喜来 驱动 计算 ， 完 全 不 使 用 递归 。 











Import types 


class Node 


pass 


import types 


class NodeVisitor 


def 


visit(self, node): 
stack = [ node ] 
last_result = None 
while 


stack: 
try 


last = stack[-1] 
if 


isinstance(last, types.GeneratorType): 
stack.append(last.send(last_result) ) 
last_result = None 
elif 


isinstance(last, Node): 
stack.append(self._visit(stack.pop())) 
else 


last_result = stack.pop() 
except StopIteration 


stack.pop() 


return 


last_result 


def 


_visit(self, node): 


methname = 'visit_' + type(node).__name__ 
meth = getattr(self, methname, None) 
if 

meth is 


None: 
meth = self.generic_visit 
return 


meth(node) 


def 


generic_visit(self, node): 
raise RuntimeError 


('No {} method'.format('visit_' + type(node).__name_)) 








如 条 使 用 这 个 类 ， 融 会 用 现 配 合 之 前 已 有 的 代 
码 〈 可 能 使 用 了 递归 )〉 ， 程 序 仍然 可 以 正常 工作 。 
实际 上 ， 我 们 可 以 用 其 人 普 换 上 一 节 中 的 访问 者 类 实 
现 。 例 如 ， 考 虑 下 面 的 代码 ， 其 中 涉及 表达 式 树 : 





class UnaryOperator 


(Node): 
def 


__init__(self, operand): 
self.operand = operand 
class BinaryOperator 


(Node): 
def 


_ init__(self, left, right): 
self.left = left 
self.right = right 


class Add 


(BinaryOperator ) : 


pass 


class Sub 


(BinaryOperator ) : 


pass 


class Mul 


(BinaryOperator): 
pass 


class Div 


(BinaryOperator ) : 


pass 


class Negate 


(UnaryOperator): 


pass 


class Number 


(Node): 
def 


__ init__(self, value): 


self.value = value 


# A sample visitor class that evaluates expressions 


class Evaluator 


(NodeVisitor): 
def 


visit_Number(self, node): 
return 


node.value 


def 


visit_Add(self, 
return 


self.visit(node. 


def 


visit_Sub(self, 
return 


self.visit(node. 


def 


visit_Mul(self, 
return 


self.visit(node. 


def 


visit_Div(self, 
return 


self.visit(node. 


def 


visit_Negate(self, 


return 


node): 


left) 


node): 


left) 


node): 


left) 


node): 


left) 


self. 


self. 


self. 


self. 


node): 


visit(node. 


visit(node. 


visit(node. 


visit(node. 


right ) 


right ) 


right ) 


right ) 


-self.visit(node.operand) 


if 


_name == ' main __': 
#1 + 2*(3-4) / 5 


t1 = Sub(Number(3), Number(4) ) 
t2 = Mul(Number(2), t1) 
t3 = Div(t2, Number(5)) 
t4 = Add(Number(1), t3) 


# Evaluate it 


e = Evaluator() 
print 


(e.visit(t4)) # Outputs 0.6 





上 述 代码 在 处 理 简 单 的 表达 式 时 是 没有 问题 
的 。 但 是 ，Evaluator 的 实现 中 使 用 了 递归 ， 如 果 骸 
套 层 次 太 深 的 话 程 序 束 会 衣 沉 。 示 例如 下 : 





>>> a = Number(0) 
>>> for 


range(1, 100000): 


a = Add(a, Number(n) ) 


>>> e = Evaluator() 
>>> e.visit(a) 
Traceback (most recent call last): 


File "visitor.py", line 29, in _visit 
return 


meth(node) 
File "visitor.py", line 67, in visit_Add 
return 


self.visit(node.left) + self.visit(node.right ) 
RuntimeError: maximum recursion depth exceeded 
>>> 





现在 ， 我 们 把 Evaluator 类 稍微 修改 一 下 : 





class Evaluator 


(NodeVisitor): 
def 


visit_Number(self, node): 
return 


node.value 


def 


visit_Add(self, node): 
yield 


(yield 


node.left) + (yield 


node.right ) 


def 


visit_Sub(self, node): 
yield 


(yield 


node.left) - (yield 


node.right ) 


def 


visit_Mul(self, node): 
yield 


(yield 


node.left) * (yield 


node.right ) 


def 


visit_Div(self, node): 
yield 


(yield 


node.left) / (yield 


node.right ) 


def 


visit_Negate(self, node): 
yield 


-(yield 


node.operand) 








BOAR FUR SSPE a, BEMETT RIAN 
可 以 正常 工作 SS, Ae say! 


>>> a = Number(0) 
>>> for 





range(1, 100000): 


a = Add(a, Number(n)) 


>>> e = Evaluator() 
>>> e.visit(a) 
4999950000 

>>> 








如 果 想 在 任意 一 个 方法 中 添加 目 定 义 的 处 理 ， 
程序 依然 可 以 正常 工作 。 示 例如 下 : 





class Evaluator 


(NodeVisitor ): 
def 


visit_Add(self, node): 
print 


('Add:', node) 
lhs = yield 


node.left 
print 


('left=', lhs) 
rhs = yield 


node.right 
print 


('right=', rhs) 
yield 


lhs + rhs 





>>> e = Evaluator() 
>>> e.visit(t4) 
Add: <__main__.Add object at 0x1006a8d90> 





8.22.3 ”讨论 


ASS ARIE HAR S A AD AE aS ais A AER PE 
制程 序 的 执行 流 。 这 种 令 人 费解 的 技巧 常 第 能 市 来 
很 大 的 优势 。 要 理解 本 节 的 内 容 ， 需 要 深入 了 解 几 


个 要 所 


/NO 


首先 ， 在 有 关 过 历 树 结构 的 问题 中 ， 为 了 避免 
使 用 递归 ， 和 常见 的 全 TS LE ANY EM ea DA SR SE BE 
算法 。 例 如 ， 深 上 度 优先 遍历 完全 可 以 实现 为 将 第 
个 过 到 的 节点 压 入 栈 中 ， 一 旦 处 理 结束 再 将 其 弹 
出 。 解 决 方案 中 给 出 的 visit0 方 法 的 核心 就 是 按照 
这 个 思路 实现 的 。 算 法 一 开始 会 将 初始 节点 压 入 
stack 列 表 中 (这 里 的 栈 以 Python 列 表 的 形式 来 实 
现 ) ， 然 后 继续 运行 直到 栈 为 空 为 止 。 在 执行 算法 
的 时 候 ， 栈 会 根据 树 结 构 的 深度 进行 增长 。 


第 二 个 要 点 在 于 生成 器 中 yield 语 名 的 行为 。 当 
遇 到 yield 语 句 时 ， 生 成 吉 会 产生 出 一 个 值 然 后 暂停 
执行 。 本 节 正 是 利用 这 个 特性 来 取代 递归 。 例 如 ， 
现在 我 们 不 用 像 这 样 编写 递归 式 的 表达 式 了 : 


value = self.visit(node.left) 
































我 们 用 下 面 这 条 语句 来 蔡 代 : 


value = yield 


node.left 





在 幕后 ， 这 条 语句 会 将 node.left 节 点 发 送 回 给 
visit(0) 方 法 。 之 后 ，visitO 束 可 以 为 该 节点 调用 合适 








的 visit Name(0 方 法 了 了。 从 某 种 意义 上 说 ， 这 几乎 和 
递归 算法 恰好 相反 。 也 了 吏 是 说 ， 现 在 不 是 通过 递归 
调用 visit(0) 来 过 历 树 市 点 了 ， 而 是 在 处 理 的 过 程 中 
用 yield 语 句 来 暂停 计算 。 因 此 ，yield 本 质 上 可 当做 
一 种 信号 来 告诉 算法 当前 处 在 yield 状 态 的 节点 需要 
完 修 处 理 ， 之 后 猎 下 的 处 理 才 可 以 继续 进行 。 


本 节 中 最 后 一 个 需要 考虑 的 问题 是 如 何 传递 结 

条 。 当 我 们 使 用 生成 右 函 数 时 ， 我 们 不 能 再 使 用 
retum 语 句 来 及 送 结果 了 【这 么 做 会 产生 SyntaxError 
Fein) 。 因 此 ，yield 语 句 必 须 来 承担 这 个 责任 。 在 
本 节 中 ， 如 果 由 yield 语 句 产 生出 的 值 是 非 节点 类 型 

(non-Node type) 的 ， 则 认为 该 值 是 要 及 送 给 计算 
过 程 中 的 下 一 个 步骤 的 。 这 正 是 在 代码 中 使 用 变量 
last_return 的 目的 所 在 。 一 般 来 说 ，last_return 将 保 
存 某 个 访问 方法 上 一 次 产生 出 的 值 。 这 个 值 会 作为 
yield 语 句 的 返回 值 发 送 到 上 一 个 执行 的 方法 中 。 例 
如 ， 在 下 面 的 代码 中 : 











value = yield 


node.left 





变量 value 将 获得 last_return 的 值 ， 而 这 个 值 正 
是 在 为 节点 node.left 调 用 访问 方法 时 返回 的 结果 。 








以 上 所 有 要 点 都 可 以 在 下 面 的 代码 片段 中 找 
BI: 


last = stack[-1] 
if 


isinstance(last, types.GeneratorType): 
stack.append(last.send(last_result) ) 
last_result = None 
elif 


isinstance(last, Node): 
stack.append(self._visit(stack.pop())) 
else 


last_result = stack.pop() 
except StopIteration 


stack.pop() 





这 段 代 人 码 人 简单 地 查看 栈 顶 并 决定 下 一 步 该 做 什 
A.o WREEK. MA wH E sendo HEA 
上 次 得 到 的 结果 (如 果 有 结果 的 话 ) 添加 到 栈 中 以 
待 后续 处 理 。send0 返 回 的 值 和 传 给 yield 语 句 的 值 
是 相同 的 。 因 此 ， 在 yield node.left 这 样 的 语句 中 ， 














send() 返 回 的 就 是 Node 的 实例 node.left， 并 会 将 其 放 
置 在 栈 的 顶部 。 


如 果 栈 顶 是 一 个 Node 实 例 ， 那 么 该 实例 会 被 巷 
换 为 在 该 节点 上 调用 合适 的 访问 方法 所 得 到 的 结 
果 。 正 是 因为 这 样 ， 我 们 完全 避免 了 对 递归 的 使 
用 。 之 前 我 们 是 在 各 个 访问 方法 中 以 递归 的 方式 直 
接 调用 visit()( 参 见 上 一 节 解 决 方案 中 的 实现 )， 
现在 不 必 这 么 做 了 。 只 要 在 各 个 访问 方法 中 使 用 
yield， 那 么 程序 残 能 正音 工作 。 


最 后 ， 如 果 栈 顶 元 系 为 其 他 值 ， 则 可 认为 这 是 
某 种 类 型 的 返回 值 。 我 们 将 其 从 栈 中 弹出 然后 保存 
到 last_result 中 。 如 果 栈 中 的 下 一 个 元 素 是 生成 堪 ， 
那么 就 将 它 作 为 yield 语 句 的 返回 值 发 送出 去 。 应 该 
提 到 的 是 ，visit0) 的 最 后 一 个 返回 值 也 会 赋 给 
last_result。 这 样 束 使 得 本 节 中 的 代码 也 能 适用 于 传 
统 的 递归 实现 。 如 果 没 有 用 到 生成 器 ，last_result 吏 
保存 着 代码 中 return 语 名 的 返回 值 。 


本 节 中 一 个 潜在 的 危险 在 于 产生 Node 和 非 
Node 值 之 间 的 区 别 。 在 我 们 的 实现 中 会 目 动 忆 历 所 
有 的 Node 实 例 。 这 意味 着 我 们 不 能 把 Node 当 做 返 
回 值 来 进行 传递 。 在 实践 中 ， 这 也 许 无 关 紧 要 。 但 
是 如 果 确 实 有 这 个 需求 ， 束 需要 对 算法 做 轻微 的 调 
整 。 例 如 ， 可 以 通过 引入 男 一 个 类 来 解决 : 
































class Visit 


def 


__init__(self, node): 
self.node = node 


class NodeVisitor 


def 


visit(self, node): 
stack = [ Visit(node) | 
last_result = None 
while 


stack: 
try 


last = stack[-1] 
if 


isinstance(last, types.GeneratorType): 
stack.append(last.send(last_result) ) 
last_result = None 
elif 


isinstance(last, Visit): 
stack.append(self._visit(stack.pop().node) ) 
else 


last_result = stack.pop() 
except StopIteration 


stack.pop() 
return 


last_result 


def 


_visit(self, node): 


methname = 'visit_' + type(node).__name__ 
meth = getattr(self, methname, None) 
if 

meth is 

None: 

meth = self.generic_visit 

return 

meth(node) 

def 


generic_visit(self, node): 
raise RuntimeError 


('No {} method'.format('visit_' + type(node).__name_ )) 








根据 上 面 的 实现 ， 现 在 访问 方法 看 起 来 就 是 这 
样 的 了 : 


class Evaluator 
(NodeVisitor): 
def 
visit_Add(self, node): 
yield 
(yield 


Visit(node.left)) + (yield 


Visit(node.right) ) 


def 


visit_Sub(self, node): 
yield 


(yield 


Visit(node.left)) - (yield 


Visit(node.right) ) 








看 过 本 节 之 后 ， 你 可 能 会 倾向 于 去 实现 一 种 不 
涉及 yield 的 解决 方案 。 但 是 ， 这 么 做 会 使 得 我 们 必 
须 在 代码 中 处 理 本 节 中 已 经 提 到 过 的 诸多 问题 。 例 


如 ， 要 消除 对 递归 的 使 用 ， 需 要 维护 一 个 栈 。 也 再 
要 有 菏 种 方法 来 管理 对 树 络 构 的 过 有 历 以 及 调用 各 种 
访问 者 方法 的 惕 辑 。 没 有 生成 右 的 帮助 ， 这 种 代码 
将 演变 成 一 锅 大 林 烩 ， 其 中 混 末 看 对 栈 的 操作 、 回 
调 函 数 以 及 其 他 的 组 件 。 坦 白 说 ， 使 用 yield 的 主要 
优势 在 于 我 们 能 够 以 优雅 的 风格 编写 出 非 递归 陈 的 
代码 ， 而 且 看 起 来 和 递归 陈 的 实现 几乎 一 样 。 





8.23 ”在 环 状 数据 结构 中 管理 内 存 


8.23.1 问题 





我 们 的 程序 中 创建 了 坏 状 的 数据 结构 例如 
树 、 图 、 观 察 者 模式 等 ) ， 但 是 在 内 存 管理 上 却 遇 
到 了 麻烦 。 





8.23.2 ”解决 方案 


环 状 数据 结构 的 一 个 简单 例子 就 是 树 了 ， 这 里 
父 市 反 指 同 它 的 孩子 ， 而 孩子 节 乓 义 会 指 回 它们 的 
父 节 抬 。 对 于 像 这 样 的 代码 ， 我 们 应 该 考虑 让 其 中 
Se a emer caren nee See 
tee 








import weakref 


class Node 


def 


__init__(self, value): 


self.value = value 
self._parent = None 
self.children = [] 


def 


repr__(self): 
return 


"Node({!r:})'.format(self.value) 


# property that manages the parent as a weak-reference 


@property 
def 


parent(self): 
return 


self._parent if 
self._parent is 
None else 
self._parent() 
@parent.setter 
def 
parent(self, node): 


self. parent = weakref.ref(node) 


def 


add_child(self, child): 
self.children.append(child) 
child.parent = self 





这 种 实现 可 以 让 父 市 点 安静 地 被 回收 。 示 例如 


root = Node('parent' ) 
c1 = Node('child' ) 
root.add_child(c1) 
print 


parent) 
Node('parent' ) 
>>> del 


root 
>>> print 


(c1.parent ) 
None 
>>> 





8.23.3 ”讨论 


环 状 数据 结构 是 Python 中 一 个 多 少 需要 一 些 技 
巧 才能 处 理 好 的 方面 ， 需 要 仔细 学 习 。 因 为 普通 的 
垃圾 收集 规则 并 不 适用 于 环 状 数 据 结构 。 例 如 ， 考 





kes FECES: 





# Class just to illustrate when deletion occurs 


class Data 


def 


_del (self): 
print 


('Data.__del__') 


# Node class involving a cycle 


class Node 


def 


init__(self): 
self.data = Data() 
self.parent = None 
self.children = [] 


def 


add_child(self, child): 
self.children.append(child) 
child.parent = self 


| 


现在 ， 试 用 上 面 的 代码 ， 做 些 试验 来 看 看 有 天 
垃圾 收集 中 的 一 些微 妙 问题 : 


>>> a = Data() 
>>> del 





a # Immediately deleted 


# Immediately deleted 


Data. del _ 

>>> a = Node() 

>>> a.add_child(Node() ) 
>>> del 


a # Not deleted (no message) 





可 以 看 到 ， 除 了 最 后 那 种 涉及 成 环 的 情况 ， 其 
他 的 对 象 都 可 以 立刻 得 到 删除 。 原 因 在 于 Python 的 
垃圾 收集 器 是 基于 简单 的 引用 计数 规则 来 实现 的 。 








当 对 象 的 引用 计数 为 0 时 融会 被 立刻 删除 掉 。 而 对 
于 环 状 数据 结构 来 说 这 绝 不 可 能 发 生 。 因 为 在 最 后 
那 种 情况 中 ， 由 于 父 市 点 和 子 节 挟 互相 引用 对 方 ， 
引用 计数 不 会 为 0。 


要 处 理 环 状 数据 结构 ， 还 有 一 个 单独 的 垃圾 收 
集 器 会 定期 运行 。 但 是 ， 一 般 来 说 我 们 不 知道 它 会 
在 何 时 运行 。 因 此 ， 没 法 知道 环 状 数据 结构 具体 会 
在 何 时 被 回收 。 如 果 有 必要 的 话 ， 可 以 强制 运行 垃 
aaa ia ails 
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>>> import gc 


>>> gc.collect() # Force collection 


Data. del 
Data. del 
>>> 











如 果 环 中 的 对 象 实现 了 目 己 的 _del 方法 的 
话 ， 则 情况 会 更 糟 。 例 如 ， 假 设 有 下 面 这 样 的 代 
hH: 


# Class just to illustrate when deletion occurs 


class Data 


def 


_del (self): 
print 


('Data. del ') 
# Node class involving a cycle 


class Node 


def 


__ init__(self): 
self.data = Data() 
self.parent = None 
self.children = [] 


# NEVER DEFINE LIKE THIS. 


# Only here to illustrate pathological behavior 


def 


_del (self): 
del 


self.data 
del 


.parent 
del 


.children 
def 
add_child(self, child): 


self.children.append(child) 
child.parent = self 








在 这 种 情况 下 ， 数 据 结构 对 象 永远 不 会 被 垃圾 
收集 ， 我 们 的 程序 会 因此 而 出 现 内 存 泄露 ! 如 果 动 
手 和 尝试 一 下 ， 会 发 现 Data， del 消息 完全 没有 被 
打印 出 来 一 一 即使 是 强制 执行 垃圾 收集 也 不 会 : 





>>> a = Node() 
>>> a.add_child(Node() 
>>> del 


a # No message (not collected) 


>>> import gc 


>>> gc.collect() # No message (not collected) 


弱 引 用 通过 消除 循环 引用 来 解决 这 个 问题 。 本 
质 上 说 ， 弱 引用 就 是 一 个 指 问 对 象 的 指针 ， 但 不 会 
增加 对 象 本 喘 的 引用 计数 。 可 以 通过 weakref 库 来 创 
建 弱 引用 。 示 例如 下 : 








>>> import weakref 


>>> a = Node() 
>>> a_ref = weakref.ref(a) 


>>> a_ref 
<weakref at 0x100581f70; to 'Node' at 0x1005c5410> 
>>> 





要 提 领 (dereference) 一 个 弱 引 用 ， 可 以 像 函 
数 一 样 来 调用 它 。 如 果 提 和 领 后 得 到 的 对 象 还 依然 存 
在 ， 那 么 就 返回 对 象 ， 否 则 就 返回 None。 由 于 原始 
对 象 的 引用 计数 并 没有 增加 ， 因 此 可 以 按照 普通 的 
方式 来 删除 它 。 示 例如 下 : 








>>> print 


(a_ref()) 
<__main__.Node object at 0x1005c5410> 
>>> del 


a 
Data.__del__ 
>>> print 


(a_ref()) 
None 


>>> 








通过 使 用 弱 引 用 ， 怠 会 及 现 因为 循环 引用 而 出 
现 的 问题 都 不 存在 了 。 一 旦 某 个 对 象 不 再 被 使 用 
了 了， 会 立刻 执行 垃圾 收集 处 理 。 请 参阅 8.25 节 中 忆 
一 个 有 关 弱 引用 的 示例 。 


8.24 ”让 类 支持 比较 操作 
8.24.1 问题 


我 们 想 使 用 标准 的 比较 操作 符 〔 如 >=、!=、<= 
等 ) 在 类 实例 之 间 进行 比较 ， 但 是 又 不 想 编写 大 量 
的 特殊 方法 。 


8.24.2 ”解决 方案 


通过 为 每 种 比较 操作 符 实现 一 个 特殊 方法 ， 
Python 中 的 闫 可 以 文 持 比较 操作 。 例 如 ， 要 文 持 >= 
操作 符 ， 可 以 在 类 中 定义 一 个 _ge_ (0 方法。 虽然 
只 定义 一 个 方法 不 算 什么 ， 但 如 果 要 实现 每 种 可 能 
的 比较 操作 ， 那 么 实现 这 么 多 特殊 方法 则 很 快 会 变 
FF 


functools.total_ordering 2% (iis =) H % fal (ek A 
过 程 。 要 使 用 它 ， 可 以 用 它 来 装饰 一 个 类 ， 然 后 定 
义 _eq_0 以 及 男 一 个 比较 方法 (lt 、_ le _ 
_gt 或 者 _ge _) 。 那 么 装饰 器 就 会 目 动 为 我 们 
实现 其 他 的 比较 方法 。 


作为 示例 ， 让 我 们 来 构建 一 些 房 子 并 为 其 评 加 





一 些 房 


间 吧 ， 然 后 根据 房子 的 大 小 来 进行 比较 : 





from functools import 


total_ordering 
class Room 


def 


init __ 


(self, name, length, width): 

self.name = name 

self.length = length 

self.width = width 

self.square_feet = self.length * self.width 


@total_ordering 
class House 


def 


__init__(self, name, style): 


self.name = name 


self.style = style 
self.rooms = list() 
@property 
def 


living_space_footage(self): 


return 


sum(r.square_feet for 


self.rooms) 
def 
add_room(self, room): 
self.rooms.append(room) 
def 


str__(self): 
return 


'{}: {} square foot {}'.format(self.name, 
self .living_space_ 
self.style) 


def 


_eq _ (self, other): 
return 


self.living_space_footage == other.living_space_footage 


def 


_ lt_ (self, other): 
return 


self.living_space_footage < other.living_space_footage 





XE, House C% @total_ordering Kt tT Ae 





饰 了 。 我 们 定义 了 _eq_0 和 _ 1 _ 0 来 根据 房间 的 
总 面积 对 房子 进行 比较 。 只 需要 定义 这 两 个 特殊 方 
法 就 能 让 其 他 所 有 的 比较 操作 正常 工作 。 示 例如 








# Build a few houses, and add rooms to them 


h1 = House('h1i', 'Cape') 
h1.add_room(Room('Master Bedroom', 14, 21)) 
h1.add_room(Room('Living Room', 18, 20)) 
h1.add_room(Room('Kitchen', 12, 16)) 
h1.add_room(Room('Office', 12, 12)) 


h2 = House('h2', 'Ranch' ) 
h2.add_room(Room('Master Bedroom', 14, 21)) 
h2.add_room(Room('Living Room', 18, 20)) 
h2.add_room(Room('Kitchen', 12, 16)) 

h3 = House('h3', 'Split') 
h3.add_room(Room('Master Bedroom', 14, 21)) 
h3.add_room(Room('Living Room', 18, 20)) 
h3.add_room(Room('Office', 12, 16)) 
h3.add_room(Room('Kitchen', 15, 17)) 

houses = [hi, h2, h3] 


print 


('Is hi bigger than h2?', hi > h2) # prints True 


print 


('Is h2 smaller than h3?', h2 < h3) # prints True 


print 


('Is h2 greater than or equal to h1?', h2 >= h1) # Prints False 


print 


('Which one is biggest?', max(houses)) # Prints 'h3: 1101-square 


print 


('Which is smallest?', min(houses)) # Prints 'h2: 846-square-foo 





8.24.3 wir 





如 果 我 们 曾经 编写 过 代码 让 类 支持 所 有 的 基本 
比较 操作 人 符 ， 那 么 装饰 器 total_ordering 对 我 们 而 言 
残 并 非 那 么 神奇 : 它 从 字面 上 定义 了 从 每 个 比较 方 
法 到 其 他 所 有 需要 该 方法 的 映射 天 系 。 因 此 ， 如 果 
在 类 中 定义 了 _ lt _ 0， 那么 瓯 会 利用 它 来 构建 其 他 
比较 操作 符 。 实 际 上 残 是 在 类 中 填充 以 下 方 
法 : 


| 








class House 


def 


_eq (self, other): 


def 

—_ lt_ (self, other): 
# Methods created by @total_ordering 
__le = lambda 

self, other: self < other or 


self == other 
__gt__ = lambda 


self, other: not 
(self < other or 


self == other) 
__ge = lambda 


self, other: not 


(self < other) 
_ne = lambda 


self, other: not 


self == other 





的 确 ， 目 行 编写 这 些 方法 并 不 难 ， 但 





@total _ordering 让 这 一 过 程 变 得 更 加 简单 了 。 


8.25 ”创建 缓存 实例 
8.25.1 问题 


当 创 建 类 实例 时 我 们 想 返 回 一 个 缓存 引用 ， 让 
其 指 癌 上 一 个 用 同样 参数 如果 有 的 话 ) 创建 出 的 
类 实例 。 


8.25.2 ”解决 方案 


本 市 提 到 的 这 个 问题 常常 出 现在 当 我 们 想 确 保 
针对 某 一 组 输入 参数 只 会 有 一 个 类 实例 存在 时 。 现 
实 中 的 例子 包括 一 些 库 的 行为 ， 比 如 在 logging 模 块 
中 ， 给 定 的 一 个 名 称 只 会 关联 到 一 个 单独 的 logger 
实例 。 示 例如 下 : 








>>> import logging 


>>> a = logging.getLogger('foo') 
>>> b = logging.getLogger('bar') 
>>> a is 


b 

False 

>>> c = logging.getLogger('foo') 
>>> a is 


要 实现 这 一 行为 ， 应 该 使 用 一 个 与 类 本 里 相 分 
离 的 工厂 函数 。 示 例如 下 : 








# The class in question 


class Spam 


def 
__init__(self, name): 
self.name = name 


# Caching support 


import weakref 


_Spam_cache = weakref .WeakValueDictionary() 


def 


get_spam(name): 
if 


name not in 


_spam_cache: 
s = Spam(name) 
_Spam_cache[name] = s 
else 


s = _Sspam_cache[name ] 
return 





如 果 你 用 上 述 实 现 ， 会 发 现 Spam 类 的 行为 和 
之 前 展示 的 效果 一 样 : 


get_spam('foo') 
get_spam('bar') 


= get_spam('foo') 


1S 





8.25.3 wir 


要 想 修改 实例 创建 的 规则 ， 编 写 一 个 特殊 的 工 
三 函数 党 弟 是 一 种 简 蛙 的 方法 。 此 时 ， 一 个 第 被 所 
到 的 问题 就 是 是 否 可 以 用 更 加 优雅 的 方式 来 完成 
NE? 














例如 ， 我 们 可 能 会 考虑 重新 定义 类 的 
_ new_ (0) 方 法 : 





# Note: This code doesn't quite work 


import weakref 


class Spam 


_Spam_cache = weakref .WeakValueDictionary() 
def 


__new__(cls, name): 
if 


name in 


cls._spam_cache: 
return 


cls._spam_cache[name | 
else 


self = super().__new__(cls) 
cls._spam_cache[name] = self 
return 


self 


def 


__init__(self, name): 
print 


('Initializing Spam ' ) 
self.name = name 








初 看 上 去 ， 上 面 的 代码 似乎 可 以 完成 任务 。 但 
是 ， 主 要 的 问题 在 于 _init_() 方 法 总 是 会 得 到 调 
用 ， 无 论 对 象 实例 有 无 得 到 缓存 都 是 如 此 。 示 例如 
IFs 


>>> S = Spam('Dave') 
Initializing Spam 
>>> t = Spam('Dave') 
Initializing Spam 
>>> S İS 





这 种 行为 很 可 能 不 是 我 们 想 要 的 。 因 此 ， 要 解 
决 实例 缓存 后 会 重复 初始 化 的 问题 ， 需 要 采用 一 个 
和 有 些 不 同 的 方法 。 


本 节 中 对 弱 引 用 的 运用 与 垃圾 收集 有 着 极 为 重 
要 的 关系 。 当 维护 实例 绥 存 时 ， 只 要 在 程序 中 实际 
用 到 了 它们 ， 那 么 通 弟 希望 将 对 象 保存 在 缓存 中 。 
WeakValueDictionary 会 保存 大 那些 被 引用 的 对 象 ， 
只 要 和 扬 们 存在 于 程序 中 的 某 处 即 可 。 人 否则 ， 当 实例 
不 再 被 使 用 时 ， 字 上 — 典 的 键 就 会 消失 。 示 例如 下 : 




















>>> a = get_spam('foo') 
>>> b = get_spam('bar' ) 
>>> c = get_spam('foo' ) 
>>> list(_spam_cache) 


C 

>>> list(_spam_cache) 
['bar'] 

>>> del 


>>> list(_spam_cache) 
[] 


>>> 








对 于 许多 程序 而 言 ， 使 用 本 节 中 给 出 的 框架 代 
码 通 常 就 足够 了 。 但 是 ， 还 可 以 考虑 一 些 更 加 高 级 
的 实现 技术 。 


我 们 立刻 能 想到 的 是 ， 本 节 中 的 解决 方案 需要 
依赖 全 局 变量 以 及 一 个 与 原始 的 类 定义 相 分 离 的 工 
三 函数 。 一 种 改进 方式 是 将 缓存 代码 放 到 为 一 个 单 
独 的 管理 类 中 ， 然 后 将 这 些 组 件 粘 合 在 一 起 : 











import weakref 


class CachedSpamManager 


def 


__ init__(self): 
self. cache = weakref.WeakValueDictionary() 
def 


get_spam(self, name): 
if 


name not in 


self. cache: 
Ss = Spam(name) 
self. _cache[name] = s 
else 


s = self._cache[name ] 
return 


def 


clear(self): 


self._cache.clear() 


class Spam 


manager = CachedSpamManager ( ) 
def 


__init__(self, name): 
self.name = name 


def 


get_spam(name): 
return 


Spam.manager .get_spam(name) 








XPP A IA RE RA iL ee AU EE R i VE Ge ee 
多 文 持 。 例 如 ， ea ae 型 的 缓存 官 





机 制 ( 以 单独 的 类 来 实现 ) ， 然 后 附加 到 Spam 类 
蔡 换 挥 默 认 的 缓存 实现 。 其 他 的 代码 (比如 


get_spam) 不 需要 修改 就 能 正常 工作 。 


男 一 种 设计 上 的 考虑 是 到 的 要 不 要 将 类 的 定义 
eee. WRT Aa Maa, ALP By IRAE 
易 创 建 出 实例 ， 从 而 缉 过 缓存 机 制 : 














>>> a = Spam('foo') 
>>> b = Spam('foo') 
>>> a is 


b 
False 
>>> 





如 果 预 防 出 现 这 种 行为 对 程序 而 言 很 重要 ， 我 
们 可 以 采取 特定 的 步骤 来 避免 。 例 如 ， 可 以 在 类 名 
前 加 一 个 下 划 线 ， 例 如 _Spam， 这 样 至少 可 以 提醒 
用 户 不 应 该 直接 去 访问 它 。 


或 者 ， 如 果 想 为 用 户 提 供 更 强 的 提示 ， 有 暗示 他 
们 不 应 该 直接 实例 化 Spam 对 象 ， 可 以 计 init OÙ 
法 抛 出 一 个 异常 ， 然 后 用 一 个 类 方法 来 实现 构造 函 
数 的 功能 ， 束 像 下 面 这 样 : 

















class Spam 


__ init__(self, *args, **kwargs): 
raise RuntimeError 
("Can't instantiate directly") 


# Alternate constructor 


@classmethod 
def 


_new(cls, name): 
self = cls. new (cls) 
self.name = name 





要 使 用 上 述 代 码 ， 可 以 将 实现 缓存 机 制 的 代码 
修改 为 使 用 Spam._new0 来 创建 实例 ， 而 不 是 使 用 
通常 所 见 的 Spam()。 示 例如 下 : 





import weakref 


class CachedSpamManager 


def 


__ init__(self): 
self. cache = weakref.WeakValueDictionary() 


def 


get_spam(self, name): 
if name not in 


self._cache: 
s = Spam._new(name) # Modified creation 
self._cache[name] = s 
else 


s = self._cache[name ] 
return 











KELA BEIM tea HY AT AR Pek LS pam HY FY 
见 性 ， 但 也 许 最 好 不 要 把 问题 想 的 过 于 复杂 。 在 关 
名 前 添加 下 划 线 或 者 用 类 方法 作为 构造 函数 通 第 束 
足以 给 程序 员 融 来 提示 了 。 


通过 使 用 元 类 ， 绥 存 机 制 以 及 其 他 的 创建 模式 
(creational pattern ) as 能 够 以 更 加 优雅 的 方式 得 
以 解决 。 天 于 元 类 ， 请 参阅 9.13 市 。 
[1] ” 即 满足 obj == eval(repr(obj))。 一 一 译 者 注 


[2]” 即 ， 把 类 中 定义 的 函数 当做 一 种 属性 来 使 


用 。 一 一 译 者 注 
[3] “实际 上 是 以 Python 元 组 来 表示 的 ， 因 为 
mro ”属性 是 只 读 的 。 ETE 


[4] super 在 英语 中 束 表 示 “ 超 级 的 ” “AREY”, 
作者 在 这 里 是 双关 ， 借 用 函数 名 super 来 表示 它 的 强 
大 。 一 一 译 者 注 





第 9 章 ”元 编程 


软件 开发 中 最 重要 的 一 条 真理 就 是 “不 要 重复 
目 己 的 工作 (Don’t repeat yourself) ”. tE IRIE M, 
任何 时 候 当 需要 创建 高 度 重 复 的 代码 〈 或 者 需要 复 
制 粘贴 源 人 代码) 时， 通常 都 需要 寻找 一 个 更 加 优雅 
的 解决 方案 。 在 Python 中 ， 这 类 问题 弟 常 会 归 类 
为 “元 编程 "”。 简 而 言 之 ， 元 编程 的 主要 目标 是 创建 
函数 和 类 ， 并 用 它们 来 操纵 代码 (比如 说 修改 、 生 
成 或 者 包装 已 有 的 代码 ) 。Python 中 基于 这 个 目的 
的 主要 特性 包括 装饰 器 、 类 装饰 器 以 及 元 类 。 但 
是 ， 还 有 许多 其 他 有 用 的 主题 一 一 包括 对 象 签名 、 
用 exec(0) 来 执行 代码 以 及 检查 函数 和 类 的 内 部 结构 
也 进入 了 我 们 的 视野 。 本 章 的 主要 目的 是 探讨 
各 种 元 编程 技术 ， 通 过 示例 来 讲解 如 何 利 用 这 些 技 
H ~ 的 行为 ， 使 其 能 满足 我 们 不 同 寻 
Fe HV Tia ok o 
































9.1 给 函数 添加 一 个 包装 
9.1.1 问题 

我 们 想 给 函数 加 上 一 个 包装 层 (wrapper 
layer) 以 添加 额外 的 处 理 〈 人 例如， 记录 上 日志、 计时 
Zit) 。 
9.1.2 解决 方案 


如 果 需 要 用 额外 的 代码 对 函数 做 包装 ， 可 以 定 
MP ites PAB. AN BENE : 











import time 


from functools import 


wraps 


def 


timethis(func): 


Decorator that reports the execution time. 


@wraps(func) 
def 


wrapper(*args, **kwargs): 
start = time.time() 
result = func(*args, **kwargs) 
end = time.time() 
print 


(func. __name__, end-start) 
return 


result 
return 


wrapper 








FAEH Pe TH a AN a 


>>> @timethis 
. def 





countdown(n): 


Counts down 


while 


>>> countdown(100000) 
countdown 0.008917808532714844 
>>> countdown(10000000 ) 
countdown 0.87188299392912 
>>> 





9.1.3 讨论 
装饰 器 就 是 一 个 函数 ， 它 可 以 接受 一 个 函数 作 


为 输入 并 返回 一 个 新 的 函数 作为 输出 。 当 像 这 样 编 
写 代 码 时 : 


@timethis 


def 


countdown(n): 





和 单独 执行 下 列 步 又 的 效 束 是 一 样 的 : 


def 


countdown(n): 


countdown = timethis(countdown) 





MESE, A SE With as CE AN 
@staticmethod、(@classmethod 以 及 @property 的 工作 
方式 也 是 一 样 的 。 比 如 说 ， 下 面 这 两 个 代码 厂 段 的 
效果 是 相同 的 : 








class A 


@classmethod 
def 


method(cls): 


class B 


# Equivalent definition of a class method 


def 


method(cls): 


method = classmethod(method) 





装饰 器 内 部 的 代码 一 般 会 涉及 创建 一 个 新 的 函 
数 ， 利 用 *args 和 **kwargs 来 接受 任意 的 参数 。 本 市 
示例 中 的 wrapper0 函 数 正 是 这 么 做 的 。 在 这 个 函数 
内 部 ， 我 们 需要 调用 原来 的 输入 函数 〈 即 被 包 冯 的 
ABT PEL, “ERR TANABE) 并 返回 它 的 结 





R, (Ae, thal DYNO EES MRS 
《例如 计时 处 理 ) 。 这 个 新 创建 的 wrapper 函 数 会 作 
为 装饰 髓 的 结果 返回 ， 取 代 了 原来 的 函数 。 


需要 重点 强调 的 是 ， 装 饰 器 一 般 来 说 不 会 修改 
调用 签名 ， 也 不 会 修改 被 包装 函数 返回 的 结果 。 这 
里 对 *args 和 **kwargs 的 使 用 是 为 了 确保 可 以 接受 任 
何 形式 的 输入 参数 。 装 饰 器 的 返回 值 几乎 六 是 同调 
用 func(*args, **kwargs) 的 结果 一 致 ， 这 里 的 func 就 
是 那个 未 被 包装 过 的 原始 函数 。 


当初 次 学 习 装 饰 吉 时 ， 通 过 一 些 简单 的 例子 来 
入 门 是 很 容易 的 ， 束 像 本 节 给 出 的 那个 计时 的 例子 
一 样 。 但 是 ， 如 果 打 算 在 生产 环境 中 编写 装饰 右 ， 
那么 这 里 还 有 一 些 细节 需要 考虑 。 比 方 说 ， 我 们 的 
解决 方案 中 对 装饰 器 @wraps(func) 的 使 用 就 是 一 个 
容易 瑟 记 但 是 却 很 重要 的 技术 ， 它 可 以 用 来 保存 函 
数 的 元 数据 。 这 方面 的 内 容 将 在 下 一 节 中 描述 。 如 
果 我 们 要 编写 目 己 的 闭 饰 右 函 数 ， 那 么 接 下 来 的 几 
节 将 会 补充 一 些 很 重要 的 细节 。 








9.2 ”编写 装饰 器 时 如 何 保存 函数 的 
元 数据 
9.2.1 问题 

我 们 已 经 编写 好 了 一 个 装饰 器 ， 但 是 当 将 它 用 
在 一 个 函数 上 时 ， 一 些 重要 的 元 数据 比如 函数 名 、 
文档 字符 串 、 函 数 注 解 以 及 调用 签名 都 丢失 了 。 
9.2.2 ”解决 方案 

每 当 定 义 一 个 装饰 器 时 ， 应 该 总 是 记得 为 拭 层 


的 包 闭 函数 添加 functools 库 中 的 @wraps 闭 饰 器 。 示 
例如 下 : 











import time 


from functools import 


wraps 


def 


timethis(func): 


Decorator that reports the execution time. 


@wraps(func) 
def 


wrapper(*args, **kwargs): 
start = time.time() 
result = func(*args, **kwargs) 
end = time.time() 
print 


(func. __name__, end-start) 
return 


result 
return 


wrapper 








Pia eR SR as ANB, FFA Ras Son 
何 检视 结 末 函 数 的 元 数据 ; 


>>> @timethis 
. def 





countdown(n:int): 


Counts down 


while 


>>> countdown(100000) 
countdown 0.008917808532714844 
>>> countdown. _name__ 
"countdown' 

>>> countdown. doc__ 
"\n\tCounts down\n\t' 

>>> countdown. _annotations__ 
{'n': <class 'int'>} 

>>> 


pO 


9.2.3 pir 


Si Ae AS A CS ES op oe FS Le a HY 
Toe. UR eA Oaia EEI A 
的 函数 丢失 了 所 有 有 用 的 信息 。 例 如 ， 如 果 忽 略 
@wraps, 上 面 这 个 例子 中 的 元 数据 看 起 来 就 是 这 
样 的 : 











>>> countdown. name | 
‘wrapper ' 

>>> countdown. doc __ 

>>> countdown. annotations _ 


>>> 





@wraps2e tias H — A E PE a ze EY DA 
过 __wrapped__ 属性 来 访问 被 包装 的 那个 函数 。 例 
如 ， 如 果 和 硕 望 和 直接 访 问 被 包装 的 函数 ， 则 可 以 这 样 
做 : 





>>> countdown.__wrapped__(100000) 
>>> 


wrapped JB MEHY 44 E al PEE 7G ARS iH AS EA BL 











可 以 合适 地 将 底层 被 包装 函数 的 签名 暴露 出 来 。 例 
i: 


>>> from inspect import 


signature 
>>> print 


(signature(countdown)) 
(n:int) 
>>> 





fit Ze he 2 — A h ie a LEA i as BS 
被 包装 的 原始 函数 的 调用 签名 〈( 即 ， 不 使 用 *args 和 
**kwargs) 。 一 般 来 说 ， 如 果 不 采 用 涉及 生成 代码 
字符 串 和 exec() 的 技巧 ， 那 么 这 很 难 实现 。 坦 日 地 
说 ， 通 第 我 们 了 最 好 还 是 使 用 @wraps。 这 样 可 以 依 
赖 于 一 个 事实 ， 即 ， 底 层 的 函数 签名 可 以 通过 访问 
wrapped ”属性 来 传递 。 有 关 函 数 签名 的 更 多 信 
IA] LABS [9.1675 © 














9.3 ”对 装饰 器 进行 解 包装 
9.3.1 问题 


我 们 已 经 把 效 饰 胡 洪 加 到 一 个 函数 上 了 ， 但 是 
想 “ 撤 销 ” 它 ， 访 问 未 经 过 包 疙 的 那个 原始 函数 。 


9.3.2 RTR 
假设 装饰 器 的 实现 中 己 经 使 用 了 @wraps〈 参 
见 9.2 节 ) ， 一 般 来 说 我 们 可 以 通过 访问 


wrapped ”属性 来 获取 对 原始 函数 的 访问 。 示 例 
如 下 : 





>>> @somedecorator 
>>> def 


add(x, y): 
return 


x+ y 


>>> orig_add = add.__wrapped__ 
>>> orig_add(3, 4) 


7 
>>> 


9.3.3 pit 


直接 访问 装饰 器 背后 的 那个 未 包装 过 的 函数 对 
于 调试 、 反 射 (introspection， 也 有 译 为 “自省 ”) 以 
及 其 他 一 些 涉及 函数 的 操作 是 很 有 帮助 的 。 但 是 ， 
本 市 讨论 的 技术 只 有 在 实现 装饰 器 时 利用 functools 
模块 中 的 @wraps 对 元 数据 进行 了 适当 的 拷贝 ， 或 
AARRE J wrapped 属性 时 才 有 用 。 


如 果 有 多 个 装饰 器 已 经 作用 于 某 个 函数 上 了 ， 
那么 访问 wrapped__ 属 性 的 行为 目前 是 未 定义 
会 绕 过 所 有 的 包装 层 。 例 如 ， 假 设 有 如 下 的 代码 : 




















from functools import 


wraps 


def 


decorator1(func): 
@wraps(func) 
def 


wrapper(*args, **kwargs): 


print 


('Decorator 1') 
return 


func(*args, **kwargs) 
return 

wrapper 

def 

decorator2(func): 


@wraps(func) 
def 


wrapper(*args, **kwargs): 
print 


('Decorator 2') 
return 


func(*args, **kwargs) 
return 

wrapper 

@decorator1 


@decorator2 
def 


add(x, y): 
return 


x+y 


wrapped_ _ 属 


= Val H R TILL HY PABA Re 
性 调用 原始 函数 时 就 会 出 现 这 样 的 情况 : 





>>> add(2, 3) 
Decorator 1 
Decorator 2 


5 
>>> add.__wrapped__(2, 3) 
5 


>>> 





然而 ， 这 种 行为 已 经 被 报告 为 一 个 bug 了 《人参 
JLhttp://bugs.python.org/issue17482 ) ， 可 能 会 在 今 
后 释 出 的 版 本 中 修改 为 暴露 出 合适 的 装饰 占 链 


(decorator chain) 。 


最 后 但 同样 重要 的 是 ， 请 注意 并 不 是 所 有 的 闭 
饰 右 都 使 用 了 @wraps， 因 此 有 些 装饰 需 的 行为 可 
能 与 我 们 期 望 的 有 所 区 别 。 特 别 是 ， 由 内 建 的 装饰 
器 @staticmethod 和 人 @Dclassmethod 创 建 的 描述 符 
(descriptor) X RÝMA NAE GHR, EN] 
会 把 原始 函数 保存 在 _ func 属性 中 ) 。 所 以 ， 具 
体 问 题 需要 具体 分 析 ， 每 个 人 过 到 的 情况 可 能 不 
同 。 











9.4 ELPA PSB BAN AS Ti as 
9.4.1 问题 

我 们 想 编写 一 个 可 接受 参数 的 装饰 颖 函 数 。 
9.4.2 ”解决 方案 

让 我 们 用 一 个 例子 来 说 明 接 受 参数 的 过 程 。 假 
设 我 们 想 编 写 一 个 为 函数 添加 日 志 功 能 的 装饰 颖 ， 


但 是 又 允许 用 户 指定 日 志 的 等 级 以 及 一 些 其 他 的 细 
节 作 为 参数 。 下 面 是 定义 这 个 疤 饰 锅 的 可 能 做 法 : 








from functools import 


wraps 
import logging 


def 


logged(level, name=None, message=None): 


Add logging to a function. level is the logging 


level, name is the logger name, and message is the 


log message. If name and message aren't specified, 


they default to the function's module and name. 


def 


decorate(func): 
logname = name if 


name else 


func. module _ 
log = logging.getLogger(logname) 
logmsg = message if 


message else 
func. _name__ 


@wraps(func) 
def 


wrapper(*args, **kwargs): 
log.log(level, logmsg) 


return 


func(*args, **kwargs) 
return 


wrapper 
return 


decorate 
# Example use 


@logged( logging .DEBUG) 
def 


add(x, y): 
return 


xX + y 


@logged(logging.CRITICAL, 'example' ) 
def 


Spam( ) : 
print 
('Spam!') 








初 看 上 去 这 个 实现 显得 很 有 技巧 性 ， 但 其 中 的 
思想 相对 来 说 是 很 简单 的 。 最 外 层 的 logged0 函 数 
接受 所 需 的 参数 ， 并 让 它们 对 疼 饰 者 的 内 层 函 数 可 


见 。 内 层 的 decorate0 函 数 接受 一 个 函数 并 给 它 加 上 
一 个 包装 层 。 关 键 部 分 在 于 这 个 包装 层 可 以 使 用 传 
递 给 logged() 的 参数 。 





9.4.3 ”讨论 


编写 一 个 可 接受 参数 的 竣 饰 融 是 需要 一 些 技巧 
的 ， 因 为 这 会 涉及 底层 的 调用 顺序 。 具 体 来 说 ， 如 
末 有 这 样 的 代码 : 


@decorator(x, y, Z) 
de 


func(a, b): 


pass 





装饰 的 过 程 会 按照 下 列 方式 来 进行 ; 





func(a, b): 
pass 


func = decorator(x, y, z)(func) 


[L CSR 


请 仔细 观察 ，decorator(x, y, ZzZ) 的 结果 必须 是 一 
个 可 调用 对 象 ， a a 
输入 ， 并 对 其 进行 包装 。 请 参见 9.7 节 中 为 一 个 关于 
让 装饰 器 接受 参数 的 例子 。 


95 ”定义 一 个 属性 可 由 用 户 修改 的 
pe Vill AN 


9.5.1 问题 


我 们 想 编写 一 个 竣 饰 占 来 包 疙 函数 ， 但 是 可 以 
让 用 户 调 整 装 饰 莫 的 属性 ， 这 样 在 运行 时 能 够 控制 
pe UB at AT AY o 


9.5.2 ”解决 方案 


下 面 给 出 的 解决 方案 对 上 一 节 的 示例 进行 了 扩 
展 ， 引 入 了 访问 器 函数 Caccessor function) ， 通 过 
使 用 nonlocal 关 键 字 声明 变量 来 修改 装饰 右 内 部 的 
人 问 毁 函数 作为 函数 属性 附加 到 包装 














from functools import 


wraps, partial 
import logging 


# Utility decorator to attach a function as an attribute of obj 


def 


attach_wrapper(obj, func=None): 
if 


func is 


None: 
return 


partial(attach_wrapper, obj) 
setattr(obj, func. __name__, func) 
return 


func 


def 


logged(level, name=None, message=None): 


mre 


Add logging to a function. level is the logging 


level, name is the logger name, and message is the 


log message. If name and message aren't specified, 


they default to the function's module and name. 


def 


decorate(func): 
logname = name if 


name else 


func. __ module _ 
log = logging.getLogger (logname) 
logmsg = message if 


message else 


func. name _ 
@wraps(func) 


def 


wrapper(*args, **kwargs): 
log.log(level, logmsg) 
return 


func(*args, **kwargs) 


# Attach setter functions 


@attach_wrapper (wrapper ) 
def 


set_level(newlevel): 
nonlocal level 
level = newlevel 
@attach_wrapper (wrapper ) 
def 


set_message(newmsg): 
nonlocal logmsg 
logmsg = newmsg 
return 
wrapper 
return 


decorate 


# Example use 


@logged( logging .DEBUG) 
def 


add(x, y): 
return 


xX + y 


@logged(logging.CRITICAL, 'example' ) 
def 


Spam( ) : 
print 


('Spam!') 


| 


下 面 的 交互 陈 会 话 展 示 了 在 完成 上 面 的 定义 之 
后 对 各 项 属性 的 修改 : 


>>> import logging 


>>> logging.basicConfig(level=logging .DEBUG) 
>>> add(2, 3) 

DEBUG: main _:add 

5 


>>> # Change the log message 


>>> add.set_message('Add called') 
>>> add(2, 3) 

DEBUG: __main__:Add called 

5 


>>> # Change the log level 


>>> add.set_level( logging .WARNING) 
>>> add(2, 3) 

WARNING: __main__:Add called 

5 

>>> 





9.5.3 ”讨论 
本 节 示 例 的 关键 束 在 访问 器 函数 〈( 即 ， 


set_message()f#llset_level()) ， 它 们 以 属性 的 形式 附 
加 到 了 包 闭 函数 上 。 每 个 访问 器 函数 允许 对 
nonlocal 变 量 赋值 来 调整 内 部 参数 。 





这 个 示例 中 有 一 个 令 人 惊叹 的 特性 ， 那 就 是 访 
问 器 函数 可 以 跨越 多 个 装饰 费 层 进行 传播 (如 果 所 
有 有 的 装饰 器 都 使 用 了 @functools.wraps 的 话 ) 。 例 
如 ， 假 设 引 入 了 一 个 额外 的 装饰 器 ， 比 如 9.2 节 中 的 
@timethis， 然 后 编写 了 如 下 的 代码 : 

@timethis 


@logged( logging .DEBUG) 
def 


countdown(n): 





MERILY H ae EA UK A BY DAE LIF: 





>>> countdown( 10000000 ) 

DEBUG: __main__:countdown 

countdown 0.8198461532592773 

>>> countdown.set_level(logging.WARNING) 

>>> countdown.set_message("Counting down to zero") 
>>> countdown( 10000000 ) 

WARNING: __ main__:Counting down to zero 

countdown 0.8225970268249512 

>>> 


Le 


如 朱 把 闭 饰 磺 的 顺序 像 下 面 这 样题 倒 一 人 下， 束 
会 友 现 访问 絮 函 数 还 是 能 够 以 相同 的 方式 工作 。 


@logged(logging .DEBUG) 
@timethis 
def 


countdown(n): 
while 





REPRE Aah, FANT Ay oe Yo 
额外 的 代码 来 实现 用 访问 颖 函数 返回 内 部 的 状态 
值 : 





@attach_wrapper (wrapper ) 
def 


get_level(): 
return 


level 


# Alternative 


wrapper.get_level = lambda 


: level 





本 节 中 一 个 极为 微妙 的 地 方 在 于 为 什么 要 在 一 
开始 使 用 访问 紫 函 数 。 比 方 襄 ， 我 们 可 能 会 考虑 其 
他 的 方案 ， 完 全 基于 对 函数 属性 的 直接 访问 ， 示 例 
如 下 : 





@wraps(func) 
def 


wrapper(*args, **kwargs): 
wrapper.log.log(wrapper.level, wrapper.logmsg) 
return 


func(*args, **kwargs) 


# Attach adjustable attributes 


wrapper.level = level 
wrapper.logmsg = logmsg 
wrapper.log = log 











OAT IE R AEA FE UE RR iia Eo MRE 





当前 顶层 的 装饰 器 上 又 添加 了 一 个 装饰 器 〈 比 如 示 
例 中 的 @timethis) ， 这 样 就 会 隐藏 下 层 的 属性 使 得 
它们 无 法 被 修改 。 而 使 用 访问 器 函数 可 以 绕 过 这 个 
限制 。 








最 后 但 同样 重要 的 是 ， 本 节 展 示 的 解雇 方案 可 
以 作为 类 法 饰 占 的 一 种 普 代 方式 ， 我 们 在 9.9 节 中 会 
继续 谈 到 相关 的 主题 。 





9.6 ”定义 一 个 能 接收 可 选 参数 的 疼 
UR AN 


9.6.1 问题 


我 们 想 编写 一 个 单独 的 装饰 器 ， 使 其 既 可 以 像 
@decorator 这 样 不 市 参数 使 用 ， 也 可 以 像 
@decorator(x, y, Z) 这 样 接收 可 选 参 数 。 但 是 ， 由 于 
简单 的 装饰 器 和 可 接收 参数 的 装饰 右 之 间 存 在 不 同 
的 调用 约定 (calling convention) ， 这 样 看 来 似乎 
并 没有 直接 的 方法 来 处 理 。 





9.6.2 ”解决 方案 


我 们 对 9.5 节 中 记录 日 志 的 代码 做 了 修改 ， 定 义 
了 一 个 可 接受 可 选 参 数 的 装饰 器 : 








from functools import 


wraps, partial 
import logging 


logged(func=None, *, level=logging.DEBUG, name=None, message=Non 
if 


func is 


None: 
return 
partial(logged, level=level, name=name, message=message) 


logname = name if 


name else 


func. module _ 
log = logging.getLogger (logname ) 
logmsg = message if 


message else 


func. _name__ 
@wraps(func) 
def 


wrapper(*args, **kwargs): 
log.log(level, logmsg) 
return 


func(*args, **kwargs) 
return 


wrapper 


# Example use 


@logged 
def 


add(x, y): 
return 


x+ y 


@logged(level=logging.CRITICAL, name='example' ) 
def 


Spam( ) : 
print 


('Spam!') 





NASP BY LAGS), MEXA ia BH He ie DA 
简单 的 形式 〈 即 @logged) 使 用 ， 也 可 以 提供 可 选 
的 参数 给 它 〈 即 ， 

@logged(level=logging. CRITICAL, 
name='example')) 。 


9.6.3 iit 


本 看 提 到 的 实际 上 有 是 一 种 编程 一 致 性 
(programming consistency) 的 问题 。 当 使 用 装饰 
釉 时 ， 大 部 分 程序 员 习 惯 于 完全 不 使 用 任何 参数 ， 





或 者 束 像 示例 中 那样 使 用 参数 。 从 技术 上 来 说 ， 如 
ee ee ance nearer 


add(x, y): 
return 


x+y 





但 是 这 和 我 们 津 见 的 形式 不 太一 样 ， 如 来 程序 
员 怎 记 加 上 那个 额外 的 圆 括 写 束 可 能 会 导致 第 见 的 
使 用 错误 。 本 节 提 到 的 技术 可 以 让 萎 饰 卉 以 一 致 的 
方式 便 用 ， 既 可 以 市 插 亏 也 可 以 不 市 括号 。 


要 理解 代码 是 如 何 工作 的 ， 融 需要 对 装饰 大 是 
如 何 施 加 到 函数 上 ， 以 及 对 它们 的 调用 约定 有 痢 透 
彻 的 理解 才 行 。 以 一 个 简单 的 站 饰 如 为 例 : 








# Example use 


@logged 
def 


add(x, y): 


return 


xX 十 y 


调用 顺序 是 这 样 的 : 


def 


add(x, y): 
return 


x+y 
add = logged(add) 





在 这 种 情况 下 ， 被 包 疲 的 函数 只 是 作为 第 一 个 
参数 简单 地 传递 给 logged。 因 而 ， 在 解决 方案 中 ， 
logged0 的 第 一 个 参数 就 是 要 航 包 疤 的 那个 函数 。 
其 他 所 有 的 参数 都 必须 有 一 个 默认 值 。 


对 于 一 个 可 接受 参数 的 装饰 器 ， 例 如 : 











@logged(level=logging.CRITICAL, name='example' ) 
def 


spam(): 
print 


('Spam!') 


其 调用 顺序 是 这 样 的 : 
def 


Spam( ) : 
print 


('Spam!') 
spam = logged(level=logging.CRITICAL, name='example' ) (spam) 





在 初次 调用 logged0 时 ， 被 包装 的 函数 并 没有 
传递 给 logged。 因 此 在 装饰 器 中 ， 被 包装 的 函数 必 
须 作 为 可 选 参数 。 这 样 一 来 ， 反 过 来 迫使 其 他 的 参 
数 都 要 通过 关键 字 来 指定 。 此 外 ， 当 传递 了 参数 后 
装饰 器 应 该 返回 一 个 新 函数 ， 要 包装 的 函数 就 作为 
参数 传递 给 这 个 新 函数 Glos) 。 要 做 到 这 一 
点 ， 我 们 在 解决 方案 中 利用 functools.partial 来 实现 
这 个 聪明 的 技巧 。 有 具体 来 说 ， 它 只 是 返回 了 一 个 部 
分 完成 的 版 本 ， 除 了 要 被 包装 的 函数 之 外 ， 其 他 所 
有 的 参数 都 已 经 确定 好 了 。 关 于 partial0 的 使 用 ， 可 
参阅 7.8 节 以 获取 更 多 的 细节 。 











9.7 All A Ae as MY eR) AS A oe hill FL 
行 类 型 检查 
9.7.1 问题 


我 们 想 为 函数 参数 谎 加 强制 性 的 类 型 检查 功 
能 ， 将 其 作为 一 种 断言 或 者 与 调用 者 之 间 的 娘 约 。 


9.7.2 ”解决 方案 
在 给 出 解决 方案 代码 之 前 ， 本 节 的 目标 是 提供 


一 种 手段 对 函数 的 输入 参数 类 型 做 强制 性 的 类 型 检 
但 。 下 面 这 个 简短 的 示例 说 明了 这 种 思想 : 














>>> @typeassert(int, int) 
... def 


add(x, y): 


return 


x+y 


>>> add(2, 3) 
5 
>>> add(2, 'hello') 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "contract.py", line 33, in wrapper 
TypeError: Argument y must be <class 'int'> 
>>> 








现在 ， 让 我 们 看 看 装饰 器 @typeassert 的 实现 : 





from inspect import 


signature 
from functools import 


wraps 


def 


typeassert(*ty_args, **ty_kwargs): 
def 


decorate(func): 
# If in optimized mode, disable type checking 


if not 


__debug__: 
return 


func 


# Map function argument names to supplied types 


Sig = signature(func) 
bound_types = sig.bind_partial(*ty_args, **ty_kwargs).ar 


@wraps(func) 


def 


wrapper(*args, **kwargs): 
bound_values = sig.bind(*args, **kwargs) 
# Enforce type assertions across supplied arguments 


for 
name, value in 


bound_values.arguments.items(): 
if 


name in 


bound_types: 
if not 


isinstance(value, bound_types[name] ): 
raise TypeError 


"Argument {} must be {}'.format(name, b 


return 


func(*args, **kwargs) 
return 


wrapper 
return 


decorate 





BAe RIA Te ia SRG, BEI TSE 





图 数 参 数 的 所 有 类 型 ， 也 可 以 只 指定 一 部 分 子 集 。 
此 外 ， 次 型 既 可 以 通过 位 置 参数 来 指定 ， 也 可 以 通 
过 关键 字 参 数 来 指定 。 示 例如 下 : 





>>> @typeassert(int, z=int) 
. def 


spam(x, y, Z=42): 


print 


(x, Y, Z) 


>>> spam(1, 2, 3) 

123 

>>> spam(1, 'hello', 3) 

1 hello 3 

>>> spam(1, 'hello', 'world') 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


File "contract.py", line 33, in wrapper 
TypeError: Argument z must be <class 'int'> 
>>> 





9.7.3 ”讨论 


KTR ST eR ei ae BI, SLAC 
些 重要 且 有 用 的 概念 。 


首先 ， 装 饰 器 的 一 个 特性 就 是 它们 只 会 在 函数 
定义 的 时 候 应 用 一 次 。 在 某 些 情况 下 ， 我 们 可 能 想 
禁止 由 装饰 器 添加 的 功能 。 为 了 做 到 这 点 ， 只 要 让 
装饰 器 函数 返回 那个 未 经 过 包装 的 函数 即 可 。 在 解 
决 方案 中 ， 如 果 全 局 变量 _debug_ 被 设 为 False， 
下 列 代 码 束 会 返回 未 修改 过 的 函数 〈 当 Python 解 释 
风 以 -O 或 -OO 的 优化 模式 执行 的 话 ， 则 属于 这 种 情 
th) 




















def 


decorate(func): 
# If in optimized mode, disable type checking 


if not 


__debug__: 
return 


func 


fe ROK, Fa SIR PN i as ERE E F 
HW KOM BL ELAR PRI LN BBE 4 (BE EE FEI A, 
FRAN AY 126 FE LHM 1% ee inspect.signature() K 2. 
简单 来 说 ， 这 个 函数 允许 我 们 从 一 个 可 调用 对 和 象 中 
提取 出 参数 签名 信息 。 示 例如 下 : 











>>> from inspect import 


signature 
>>> def 


spam(x, y, Z=42): 


pass 


>>> sig = signature(spam) 
>>> print 


>>> Sig.parameters 
mappingproxy(OrderedDict([('x', <Parameter at 0x10077a050 'x'>), 


('y', <Parameter at 0x10077a158 'y'>), ('z', <Parameter at 0x100 
>>> sig.parameters['z'].name 

Pat 

>>> Sig.parameters['z'].default 

42 


>>> Sig.parameters['z'].kind 
<_ParameterKind: 'POSITIONAL_OR_KEYWORD'> 
>>> 








FEAR Mi as SLA RR, BAT SE EY 
bind_partial() 方 法 来 对 提供 的 类 型 到 参数 名 做 部 分 
绑 定 。 下 面 的 示例 说 明了 其 中 发 生 了 些 什 么 : 





>>> bound_types = sig.bind_partial(int,z=int) 
>>> bound_types 

<inspect.BoundArguments object at 0x10069bb50> 
>>> bound_types.arguments 


OrderedDict([('x', <class 'int'>), ('z', <class ‘int'>)]) 
>>> 








在 这 个 部 分 绑 定 中 ， 我 们 会 注意 到 缺失 的 参数 
被 简单 地 忽略 掉 了 (〈 即 ， 这 里 没有 对 参数 y 做 绑 
定 )。 但 是 ， 绑 定 过 程 中 最 重要 的 部 分 就 是 创建 了 
有 序 字 典 bound_types. arguments。 这 个 字典 将 参数 
名 以 函数 签名 中 相同 的 顺序 映射 到 所 提供 的 值 上 。 
在 我 们 的 装饰 器 中 ， 这 个 映射 包含 了 我 们 打算 强制 
施行 的 类 型 断言 。 


在 由 姿 饰 硕 构 建 的 包 净 函数 中 用 到 了 sig.bind() 














方法 。bind0 就 如 同 bind_partial0 一 样 ， 只 是 它 不 人 允 
许 出 现 缺失 的 参数 。 因 此 ， 下 面 的 示例 中 必须 给 出 
所 有 的 参数 : 


>>> bound_values = sig.bind(1, 2, 3) 
>>> bound_values.arguments 
OrderedDict([('x', 1), ('y', 2), ('z', 3)]) 


>>> 








Pi JAS ARS, Be ail RB AT Wr Ss AE OR UR 
简单 了 : 





>>> for 


name, value in 


bound_values.arguments.items(): 
if 
name in 


bound_types.arguments: 


if not 


isinstance(value, bound_types.arguments[name] ): 


raise TypeError 





解决 方案 中 一 个 多 少 有 些微 妙 的 地 方 是 ， 对 于 
具有 默认 值 的 参数 ， 如 果 未 提供 参数 ， 则 上 断言 机 制 
不 会 作用 在 其 默认 值 上 。 例 如 ， 下 面 的 代码 可 以 工 
作 ， 即 使 items 的 默认 值 是 “错误 ”的 类 型 : 





>>> @typeassert(int, list) 
def 


bar(x, items=None): 


if 
items is 


None: 


items = [] 


items.append(x) 


return 


>>> bar(2,3) 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "contract.py", line 33, in wrapper 
TypeError: Argument items must be <class 'list'> 
>>> bar(4, [1, 2, 3]) 
[1, 2, 3, 4] 


>>> 











最 后 一 点 天 于 设计 上 的 讨论 应 该 束 是 装饰 器 参 
数 与 函数 注解 (function annotation) 的 对 比 了 。 例 
如 ， 为 什么 不 把 装饰 器 实现 为 检查 函数 注解 呢 ? 





@typeassert 
def 


Spam(x:int, y, z:int = 42): 
print 


(Xx,y,2z) 











不 使 用 函数 注解 的 一 个 可 能 原因 在 于 函数 的 每 


个 参数 只 能 赋予 一 个 单独 的 注解 。 因 此 ， 如 果 把 注 
解 用 于 类 型 断言 ， 则 它们 融 不 能 用 在 别处 了 。 此 
外 ， 装 饰 妖 @typeassert 个 能 用 于 使 用 了 注解 的 函数 
还 有 男 一 个 原因 。 如 同 解决 方案 中 展示 的 那样 ， 通 
过 使 用 闭 饰 器 参 数 ， 这 个 闭 饰 器 变 得 更 加 通用 了 ， 
即使 是 使 用 了 注解 的 函数 也 
是 


天 于 图 数 人 签名 对 象 的 更 多 信息 可 以 在 PEP 
362 Chttp://www.python.org/dev/peps/ pep-0362 ) 以 
及 inspect 模 块 的 文档 
(http://docs.python.org/3/library/inspect.html ) 中 找 
到 。9.16 市 中 也 有 一 个 额外 的 示例 可 供 参考 。 














9.8 ”在 类 中 定义 装饰 可 
9.8.1 问题 


我 们 想 在 类 中 定义 一 个 涂饰 器 ， 并 将 其 作用 于 
其 他 的 函数 或 者 方法 上 。 


9.8.2 ”解决 方案 


FER AE MP i a eR ERAN, (Ae H 
ERAN ries Be BT ee i aS ITE TARMA. BAR 
次 就 是 以 实例 方法 还 是 以 类 方法 的 形式 应 用 。 下 面 
HAN BA SCE DX Fil : 














from functools import 


wraps 


class A 


# Decorator as an instance method 


def 


decoratori(self, func): 


@wraps(func) 
def 


wrapper(*args, **kwargs): 
print 


('Decorator 1') 
return 


func(*args, **kwargs) 
return 


wrapper 


# Decorator as a class method 


@classmethod 
def 


decorator2(cls, func): 
@wraps(func) 
def 


wrapper(*args, **kwargs): 
print 


('Decorator 2') 
return 


func(*args, **kwargs) 
return 


wrapper 


| 





下 面 的 示例 展示 了 这 两 种 萎 饰 锅 会 如 何 应 用 : 


# As an instance method 


a = A() 


@a.decoratori 
def 


# As a Class method 


@A.decorator2 





BRL Fa FF AN, MERWE A Pa i a 
来 目 于 实例 a, M7 ~The aK A PARA 





9.8.3 pit 


在 类 中 定义 装饰 句 乍 看 起 来 可 能 有 些 古 怪 ， 但 
是 在 标准 库 中 也 可 以 找到 这 样 的 例子 。 尤 其 是 ， 内 
建 的 装饰 右 @property 实 际 上 是 一 个 拥有 getter0)、 
setter() 和 deleter() 方 法 的 类 ， 每 个 方法 都 可 作为 一 个 
装饰 器 。 示 例如 下 : 











class Person 


# Create a property instance 


first_name = property() 


# Apply decorator methods 


@first_name.getter 
def 


first_name(self): 
return 
self. _first_name 
@first_name.setter 


def 


first_name(self, value): 
if not 


isinstance(value, str): 
raise TypeError 


('Expected a string') 
self. first name = value 





至 于 为 什么 要 定义 成 这 种 形式 ， 关 键 原 因 在 于 
这 里 的 多 个 装饰 右 方 法 虱 在 操纵 property 实 例 的 状 








态 。 因 此 ， 如 果 和 需要 装饰 右 在 背后 记录 或 合并 信 
晨 ， 这 束 是 个 很 明智 的 方法 。 


当 编 写 类 中 的 装饰 器 时 ， 一 个 间 见 的 困惑 融 是 
如 何在 装饰 器 代码 中 恰当 地 使 用 self 或 cls 参 数 。 尽 
管 最 外 层 的 装饰 器 函数 比如 decorator10) 或 
decorator2() 需 要 提供 一 个 self 或 cls 参 数 〈( 因 为 它们 
是 类 的 一 部 分 ) ， 但 内 层 定义 的 包装 函数 一 般 不 需 
要 包含 额外 的 参数 。 这 就 是 为 什么 示例 中 两 个 装饰 
璐 创建 的 wrapperO 函 数 并 没有 包含 self 参 数 的 原 
因 。 唯 一 一 种 可 能 会 用 到 这 个 参数 的 场景 陨 是 需要 
在 包装 函数 中 访问 实例 的 某 个 部 分 。 人 否则 ， 孢 不 必 
为 此 操心 。 


RT Ee ia rE MERI ABB, LA mae 
微妙 的 方面 需要 考虑 。 那 就 是 它们 在 继承 中 的 潜在 
用 途 。 例 如 ， 假 设想 把 定义 在 类 A 中 的 站 饰 占 施 加 




















于 定义 在 子 类 B 中 的 方法 上 。 要 做 到 这 点 ， 需 要 像 
OE SS UES: 


class B 


(A): 
@A.decorator2 
def 


bar(self): 
pass 





特别 是 ， 这 里 的 装饰 器 必须 定义 为 类 方法 ， 而 
且 使 用 时 必须 显 式 地 给 出 父 类 A 的 名 称 。 不 能 使 用 
像 @B.decoator2 这 样 的 名 称 ， 因 为 在 定义 该 方法 的 
时 候 类 B 根 本 就 没有 创建 出 来 。 


9.9 ”把 装饰 如 定义 成 类 


9.9.1 问题 





我 们 想 用 装饰 占 来 包 冯 函数 ， 但 十 希望 得 到 的 
结 末 是 一 个 可 调用 的 实例 。 我 们 需要 净 饰 右 既 能 在 
类 中 工作 ， 也 可 以 在 关外 部 使 用 。 


9.9.2 ”解决 方案 


要 把 痛 饰 霹 定 义 成 类 实例 ， 需 要 确保 在 类 中 实 
call OFA get_ OFA. PE, PMS 
义 了 一 个 类 ， 可 以 在 另 一 个 函数 上 添加 一 个 简单 的 
性 能 分 析 层 : 





import types 


from functools import 


wraps 


class Profiled 


__init (self, func): 
wraps(func)(self) 
self.ncalls = 0 


def 


_Ccall (self, *args, **kwargs): 
self.ncalls += 1 
return 


self.__wrapped__(*args, **kwargs) 


def 


_get (self, instance, cls): 
if 


instance is 


None: 
return 


self 
else 


return 


types.MethodType(self, instance) 





BENE FARTS, FY PAR R fa — 
样 ， 要 么 在 类 中 要 么 在 类 外 部 使 用 : 


@Profiled 
def 


add(x, y): 
return 


x+ y 


class Spam 


@Profiled 
def 


bar (self, x): 
print 


(self, x) 





下 和 面 的 交互 式 会 话 展 示 了 这 些 隙 数 是 如 何 工作 





>>> add(2, 3) 


>>> add(4, 5) 
>>> add.ncalls 


>>> S = Spam() 

>>> s.bar(1) 

<__main__.Spam object at 0x10069e9d0> 1 
>>> s.bar(2) 

<__main__.Spam object at 0x10069e9d0> 2 
>>> s.bar(3) 

<__main__.Spam object at 0x10069e9d0> 3 


>>> Spam.bar.ncalls 
3 


9.9.3 pit 


JER TB ae KE CMRI E ve fe) FW EK. (ELE, 
这 里 有 一 些 相当 微妙 的 细节 值得 做 进一步 的 解释 ， 
尤其 是 计划 将 装饰 右 应 用 在 实例 的 方法 上 时 。 


首先 ， 这 里 对 functools.wrapsO 函 数 的 使 用 和 在 
普通 装饰 器 中 的 目的 一 样 意 在 从 被 包装 的 函数 
中 拨 贝 章 要 的 元 数据 到 可 调用 实例 中 。 


KR, RNRP RRA get OTE A 
RDRAM. WREE get 0 并 保留 其 他 所 有 
的 代码 ， 会 及 现 当 尝试 调用 被 疲 饰 的 实例 方法 时 会 
出 现 怪异 的 行为 。 例 如 : 














>>> S = Spam() 
>>> S.bar(3) 
Traceback (most recent call last): 


TypeError: spam() missing 1 required positional argument: 'x' 








tH tE HY JiR AE TE BB SEL TI ii BATES 


中 进行 查询 时 ， 作 为 摘 述 符 协 议 〈descriptor 
protocol) 的 一 部 分 ， 它 们 的 get_ 0) 方法 都 会 被 调 
用 ， 这 部 分 内 容 在 8.9 贡 中 已 描述 过 。 在 这 种 情况 
下 ，_ get_ 0 的 目的 是 用 来 创建 一 个 绑 定 方法 对 象 

(最 终 会 给 方法 提供 self 参 数 ) 。 下 面 的 例子 说 明 
了 其 中 的 机 理 : 


>>> S = Spam() 
>>> def 





grok(self, x): 


pass 


>>> grok. __get__(s, Spam) 
<bound method Spam.grok of <__main__.Spam object at 0x100671e90> 
>>> 








ERPF, _ get_ (0) 方 法 在 这 里 确保 了 绑 定 方 
法 对 象 会 恰当 地 创建 出 来 。type. MethodType() F5) 
创建 了 一 个 绑 定 方法 在 这 里 使 用 。 绑 定 方法 只 会 在 
使 用 到 实例 的 时 候 才 创建 。 如 果 在 类 中 访问 该 方 
法 ，_get_ 0 的 instance 参 数 就 设 为 None， 直 接 返 
回 Profiled 实 例 本 有 身 。 这 样 承 使 得 获取 实例 的 ncalls 

















属性 成 为 可 能 。 


如 果 想 在 某 些 方面 避免 这 种 混乱 ， 可 以 考虑 装 
饰 器 的 蔡 代 方案 ， 即 9.5 节 中 摘 述 过 的 利用 半 包 和 
nonlocal 变 量 。 示 例如 下 : 








Import types 


from functools import 


wraps 


def 


profiled(func): 
ncalls = 0 
@wraps(func) 
def 


wrapper(*args, **kwargs): 
nonlocal ncalls 
ncalls += 1 
return 


func(*args, **kwargs) 
wrapper.ncalls = lambda 


: ncalls 
return 


wrapper 


# Example 


@profiled 
def 


add(x, y): 
return 


x + y 








这 个 例子 使 用 起 来 和 之 前 的 方案 几乎 一 致 ， 除 
了 现在 访问 ncalls 时 是 以 函数 属性 的 形式 来 进行 。 
示例 如 下 : 


>>> add(2, 3) 
5 
>>> add(4, 5) 
9 


>>> add.ncalls() 


2 
>>> 





9.10 {U2 iar H SIZE PAS 
ee 
9.10.1 问题 

我 们 想 在 类 或 者 静态 方法 上 应 用 装饰 器 。 
9.10.2 解决 方案 

将 装饰 器 作用 到 类 和 静态 方法 上 是 简单 而 直接 


的 ， 但 是 要 保证 闭 饰 右 在 应 用 的 时 候 需 要 放 在 
@classmethod 和 人 @staticmethod 之 前 。 示 例如 下 : 





import time 


from functools import 


wraps 


# A simple decorator 


def 


timethis(func): 


@wraps(func) 
def 


wrapper(*args, **kwargs): 
start = time.time() 
r = func(*args, **kwargs) 
end = time.time() 
print 


(end-start) 
return 


return 


wrapper 


# Class illustrating application of the decorator to different k 


class Spam 


@timethis 


def 


instance_method(self, n): 


print 
(self, n) 
while 
n> 0 
n -= 1 


@classmethod 


@timethis 
def 


class_method(cls, n): 
print 


@staticmethod 
@timethis 
def 


static_method(n): 
print 


(n) 


while 





TARAS FAS A AS TIE DIA cE wL 
作 ， 此 外 还 为 它们 添加 了 和 额外 的 计时 功能 


>>> s = Spam() 

>>> s.instance_method(1000000 ) 

<__main__.Spam object at 0x1006a6050> 1000000 
0.11817407608032227 

>>> Spam.class_method(1000000) 

<class '__main__.Spam'> 1000000 





0.11334395408630371 

>>> Spam,static_method(1000000 ) 
1000000 

0.11740279197692871 


>>> 





9.10.3 ”讨论 


URRAIS ARZOK 4S BFS E 
IRo PON, MRR PF CE AE AD ee Tif ae : 


class Spam 


@timethis 
@staticmethod 
def 


static_method(n): 


print 





这 样 的 话 ， 调 用 static_ method 将 朋 溃 : 


N 


>>> Spam.static_method(1000000) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "timethis.py", line 6, in wrapper 
start = time.time() 


TypeError: 'staticmethod' object is not callable 
>>> 





这 里 的 问题 在 于 @classmethod 和 人 @staticmethod 
并 不 会 实际 创建 可 直接 调用 的 对 象 。 相 反 ， 它 们 创 
建 的 是 特殊 的 描述 符 对 象 ( 参 见 8.9 节 中 对 摘 述 符 的 
UHE) o KE, WREE A Aar PA RR 
ARPES FA EN, RRR. TA IK E NaS 
E MÆ @classmethod ll @staticmethod Z Al Ht BE AA 
这 个 问题 。 


本 市 担 到 的 技术 有 一 个 至 关 重 要 有 的 应 用 场景 ， 
那 就 是 在 抽象 基 类 中 定义 类 方法 和 净 态 方法 ， 这 也 
是 在 8.12 节 中 谈 到 的 主题 。 例 如 ， 如 果 想 定义 一 个 
抽象 类 方法 ， 可 以 使 用 下 面 的 代码 来 完成 : 








from abc import 


ABCMeta, abstractmethod 


class A 


(metaclass=ABCMeta): 
@classmethod 


@abstractmethod 
def 


method(cls): 
pass 





在 上 述 代 码 中 ，@classmethod 和 
@abstractmethod 出 现 的 顺序 是 很 重要 的 。 如 有 果 将 这 
两 个 装饰 器 调换 一 下 位 置 ， 那 么 束 会 产生 朋 演 。 


9.11 Fy Se ia A LY PRL 
次 加 参数 


9.11.1 问题 
我 们 想 编 写 一 个 装饰 器 为 被 包装 的 函数 添加 额 


外 的 参数 。 但 是 ， 添 加 的 参数 不 能 影响 到 该 函数 已 
有 的 调用 约定 。 





9.11.2 解决 方案 


可 以 使 用 keyword-only 参 数 将 额外 的 参数 注入 
到 函数 的 调用 签名 中 。 考 虑 如 下 的 装饰 器 : 





from functools import 


wraps 
def 
optional_debug(func): 


@wraps(func) 
def 


wrapper(*args, debug=False, **kwargs): 
if 


debug: 
print 


('Calling', func. name ) 
return 


func(*args, **kwargs) 
return 


wrapper 





下 面 的 示例 展示 了 闵 饰 占 是 如 何 工 作 的 : 


>>> @optional_debug 
. def 





spam(a,b,c): 


print 


(a,b,c) 


>>> spam(1,2,3) 

12 3 

>>> spam(1,2,3, debug=True) 
Calling spam 

12 3 

>>> 


9.11.3 ”讨论 


为 被 包 交 的 函数 添加 额外 的 参数 并 不 是 区 饰 需 
最 第 见 的 用 法 。 但 是 ， 对 于 避免 菜 些 特定 的 代码 重 
复 模 式 来 说 是 一 项 有 用 的 技术 。 例 如 ， 如 和 东 有 一 些 
这 样 的 代码 : 





def 


a(x, debug=False): 
if 


debug: 
print 


('Calling a') 
def 


b(x, y, z, debug=False): 
if 


debug: 
print 


(‘Calling b') 


def 


c(x, y, debug=False): 
if 


debug: 
print 


('Calling c') 





可 以 将 这 些 代 人 码 重 构 为 如 下 形式 : 


@optional_debug 
def 


a(x): 


@optional_debug 
def 


b(x, y, Z): 


@optional_debug 
def 


C(x, y): 





本 市 给 出 的 实现 依赖 于 这 样 一 个 事实 ， 即 


keyword-only 参数 可 以 很 容易 地 添加 到 那些 以 *args 
Ail**kwargsfE NIZE Ih eae. keyword-only# 2h 
会 作为 特殊 情况 从 随后 的 调用 中 挑选 出 来 ， 调 用 函 
数 时 只 会 使 用 剩 下 的 位 置 参数 和 关键 字 参 数 。 


这 里 有 个 理 手 的 问题 需要 考虑 。 在 还 加 的 参数 
和 被 包装 函数 的 参数 之 间 可 能 会 出 现 淤 在 的 名 称 剖 
突 问 题 。 例 如 ， 如 果 把 @optional_debug 装 饰 器 作用 
到 一 个 已 经 把 debug 作 为 参数 的 函数 上 上， 此 时 就 会 
出 错 。 要 解决 这 个 问题 ， 需 要 添加 额外 的 检查 : 





from functools import 


wraps 
import inspect 
def 


optional_debug(func): 
if 


'debug' in 


inspect.getargspec(func).args: 
raise TypeError 


('debug argument already defined' ) 


@wraps(func) 
def 


wrapper(*args, debug=False, **kwargs): 
if 


debug: 
print 


('Calling', func. name ) 
return 


func(*args, **kwargs) 
return 


wrapper 





本 市 中 最 后 一 个 需要 考虑 修改 的 地 方 在 于 如 何 
恰当 地 官 理 函数 位 名。 精明 的 程序 员 会 意识 到 被 包 








装 函 数 的 签名 是 错误 有 的。 例如: 





>>> @optional_debug 
def 


add(x,y): 


return 


>>> import inspect 


>>> print 


(inspect.signature(add) ) 


(x, Yy) 
>>> 





这 可 以 通过 如 下 的 修改 来 解决 : 





from functools import 


wraps 


import inspect 


def 


optional_debug(func): 
if 


'debug' in 


inspect.getargspec(func).args: 
raise TypeError 


('debug argument already defined' ) 


@wraps(func) 
def 


wrapper(*args, debug=False, **kwargs): 
if 


debug: 
print 


('Calling', func. name ) 
return 


func(*args, **kwargs) 


sig = inspect.signature(func) 
parms = list(Sig.parameters.values() ) 
parms.append(inspect.Parameter('debug', 
inspect .Parameter .KEYWORD_ON 
default=False) ) 
wrapper. _Signature__ = sig.replace(parameters=parms ) 
return 


wrapper 





修改 之 后 ， 现 在 包装 函数 的 签名 束 能 正确 反映 
出 debug 参 数 了。 示例 如 下 : 





>>> @optional_debug 
. def 


add(x,y): 


return 


>>> print 


(inspect.signature(add) ) 
(x, y, *, debug=False) 
>>> add(2,3) 

5 

>>> 








要 获得 更 多 有 关 函 数 签 名 方面 的 信息 ， 可 参阅 





9.16 节 。 


9.12 All FAS Ak Za FE MFT Hh J 
9.12.1 问题 
我 们 想 检 查 或 改写 一 部 分 类 的 定义 ， 以 此 来 修 


改 类 的 行为 ， 但 是 不 想 通过 继承 或 者 元 类 的 方式 来 
做 。 











9.12.2 ”解决 方案 


对 于 类 装饰 器 来 说 这 是 绝 佳 的 应 用 场景 。 比 方 
说 ， 下 面 有 一 个 类 装饰 器 重 写 Topas 
殊 方法 ， 为 其 加 上 了 日 志 记 录 功 能 








def 


log_getattribute(cls): 
# Get the original implementation 


orig_getattribute = cls. __getattribute _ 


# Make a new definition 


def 


new_getattribute(self, name): 
print 


('getting:', name) 
return 


orig_getattribute(self, name) 


# Attach to the class and return 


cls.__getattribute__ = new_getattribute 
return 


cls 


# Example use 


@log_getattribute 
class A 


def 


__init__(self,x): 
self.x = X 
def 


spam(self): 
pass 








如 果 试 着 使 用 解决 方 采 中 给 出 的 类 ， 束 会 得 到 
以 下 结果 : 


>>> a = A(42) 
>>> a.X 
getting: x 
42 


>>> a.spam() 
getting: spam 
>>> 





9.12.3 ”讨论 


类 装饰 器 常常 可 以 直接 作为 涉及 混合 类 
(mixin) EC ae 例 
如 ， 对 于 解决 方案 中 的 例子 ， 男 一 种 可 选 的 实现 方 
法 是 使 用 继承 : 








class LoggedGetattribute 


def 


getattribute_(self, name): 
print 


('getting:', name) 
return 


super().__getattribute_ (name) 
# Example: 
class A 


(LoggedGetattribute): 
def 


__init__(self,x): 
self.x = x 
def 


spam(self): 
pass 





这 么 做 可 行 ， 但 是 要 想 理解 其 中 的 原理 ， 则 必 
须 对 方法 解析 顺序 (MRO) 、superO 以 及 其 他 有 关 





继承 方面 的 知识 有 所 了 解 〈 详 见 8.7 节 ) 。 从 某 种 意 
义 上 说 ， 类 装饰 器 这 种 解决 方案 要 更 加 直接 ， 而 且 
不 会 在 继承 体系 中 引入 新 的 依赖 和 关系。 事实 证 明 ， 
ee aa aa 
Af. — EG 


BR BS BPS ih ae (EHP PAZE, AB 
么 可 能 需要 考虑 添加 的 顺序 问题 。 例 如 ， 如 果 革 个 








ee hide ze Ad ET SR SR PATTIE, mW 
ARIMA RET AN TAL, SI EE 
He FADE, AL RY RE m BASS OB PR TA VE 
用 于 关上 。 


请 参考 8.13 节 中 另 一 个 关于 类 装饰 器 的 示例 。 


9.13 ”利用 元 类 来 控制 实例 的 创建 
9.13.1 问题 


我 们 想 改变 实例 创建 的 方式 ， 以 此 来 实现 单 例 
模式 、 绥 存 或 者 其 他 类 似 的 特性 。 


9.13.2 解决 方案 
作为 Python 程 序 员 ， 大 家 都 应 该 知道 如 果 定 义 


了 一 个 类 ， 那 么 创建 实例 时 就 好 像 在 调用 一 个 函数 
一 样 。 示 例如 下 : 








class Spam 


def 


__init__(self, name): 
self.name = name 


a = Spam('Guido' ) 
b = Spam('Diana' ) 





如 果 想 定制 化 这 个 步骤 ， 则 可 以 通过 定义 一 个 





元 类 并 以 某 种 方式 重新 实现 它 的 _call_() 方 法 。 为 
TARANTE, BCT AN EEE fa A EH SE 
Bil 


class NoInstances 


(type): 
def 


_Ccall (self, *args, **kwargs): 
raise TypeError 


("Can't instantiate directly") 


# Example 


class Spam 


(metaclass=NoInstances): 
@staticmethod 
def 


grok(x): 
print 


('Spam.grok' ) 





在 这 种 情况 下 ， 用 户 可 以 调用 定义 的 静态 方 
法 ， 但 是 没 法 以 普通 的 方式 创建 出 实例 。 示 例如 


>>> Spam.grok(42) 
Spam. grok 
>>> S = Spam() 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "example1.py", line 7, in _call__ 
raise TypeError 


("Can't instantiate directly") 
TypeError: Can't instantiate directly 
>>> 





现在 ， 假 设 我 们 想 实 现 单 例 模 式 〈 即 ， 这 个 类 
只 能 创建 唯一 的 一 个 实例 ) 。 相 对 来 说 这 束 很 直接 





class Singleton 


(type): 
def 


__init__(self, *args, **kwargs): 
self.__ instance = None 
super().__init__(*args, **kwargs) 


def 


__call_(self, *args, **kwargs): 
if 


self. instance is 


None: 
self. instance = super().__call__(*args, **kwargs) 
return 


self.__instance 
else 


return 


self.__instance 
# Example 


class Spam 


(metaclass=Singleton): 
def 


__ init__(self): 
print 


('Creating Spam' ) 





在 这 种 情况 下 ， 这 个 类 只 能 创建 出 唯一 的 实 
例 。 示 例如 下 : 





>>> a = Spam() 
Creating Spam 
>>> b = Spam() 


>>> a is 


b 

True 

>>> C = Spam() 
>>> a is 





最 后 ， 假 设 我 们 想 创 建 绥 存 实例 (cached 
instance，8.25 节 有 介绍 ) 。 我 们 用 一 个 元 类 来 实 
Fl: 





import weakref 


class Cached 


(type): 
def 


__init__(self, *args, **kwargs): 
Ssuper().__init__(*args, **kwargs) 
self.__ cache = weakref .WeakValueDictionary() 


def 


_Ccall (self, *args): 
i 


args in 


self.__cache: 
return 


self.__cache[args] 
else 


obj = super(). call (*args) 
self. cache[args] = obj 
return 


obj 


# Example 


class Spam 


(metaclass=Cached): 
def 


__init__(self, name): 
print 


('Creating Spam({!r})'.format(name) ) 
self.name = name 








下 和 面 的 交互 式 会 话 展示 了 这 个 类 的 行为 : 


>>> a = Spam('Guido' ) 
Creating Spam('Guido' ) 
>>> b = Spam('Diana' ) 
Creating Spam('Diana' ) 
>>> C = Spam('Guido' ) # Cached 


# Cached value returned 





9.13.3 Wir 





HEL TOFS SEL PP ESE Pi RN E Fv ECA 
些 不 涉及 元 类 的 解决 方案 要 优雅 。 如 条 不 用 元 关 ， 
那 束 得 将 类 隐藏 在 条 种 额外 的 工厂 函数 之 后 。 例 
如 ， 要 实现 单 例 模式 ， 可 能 会 用 到 下 面 这 种 拉 巧 : 











class _Spam 


__ init__(self): 
print 


('Creating Spam ) 
_Spam_instance = None 


def 


Spam(): 
global 


_spam_instance 
if 


_spam_instance is not 


None: 
return 


_Spam_instance 
else 


_spam_instance = _Spam() 
return 


_spam_instance 








尽管 使 用 元 类 的 解决 方案 涉及 许多 更 加 高 级 的 





概念 ， 但 最 终 的 代码 看 起 来 会 更 加 清晰 ， 也 没有 那 


么 多 所 谓 的 技巧 。 


参见 8.25 节 以 得 到 更 多 关于 创建 绥 存 实例 、 弱 
引用 Cweak reference) 以 及 其 他 细节 方面 的 信息 。 





9.14 ”获取 类 属性 的 定义 顺 友 
9.14.1 问题 


我 们 想 目 动 记录 下 属性 和 方法 在 类 中 定义 的 顺 
序 ， 这 样 束 能 利用 这 个 顺序 来 完成 各 种 操作 例如 
序列 化 处 理 、 将 属性 映射 到 数据 库 中 等 ) 。 


9.14.2 ”解决 方案 


要 获取 类 定义 体 中 的 有 关 人 信息， 可 以 通过 元 类 
来 轻松 实现 。 在 下 面 的 示例 中 ， 元 类 使 用 
OrderedDict (FZE) 来 获取 描述 符 的 定义 顺 
FP: 














from collections import 


OrderedDict 


# A set of descriptors for various types 


class Typed 


_expected_type = type(None) 
def 


__init__(self, name=None): 
self._name = name 


def 


set_ (self, instance, value): 
if not 


isinstance(value, self. _expected_type): 
raise TypeError 


('Expected ' + str(self._expected_type) ) 
instance. __dict__[self._name] = value 
class Integer 


(Typed) : 


_expected_type int 


class Float 


(Typed): 
_expected_type = float 


class String 
(Typed): 
_expected_type = str 
# Metaclass that uses an OrderedDict for class body 


class OrderedMeta 


(type): 


def 


__new__(cls, clsname, bases, clsdict): 
d = dict(clsdict) 
order = [] 
for 


name, value in 


clsdict.items(): 
if 


isinstance(value, Typed): 
value._name = name 
order .append(name) 
d['_order'] = order 
return 


type.__new__(cls, clsname, bases, d) 
@classmethod 
def 


__prepare__(cls, clsname, bases): 
return 


OrderedDict() 





在 这 个 元 类 中 ， 摘 述 符 的 定义 顺序 是 通过 使 用 
OrderedDict 在 执行 类 的 定义 体 时 获取 到 的 。 得 到 的 





结果 会 从 字典 中 提取 出 来 然后 你 存 到 类 的 属性 
_order 中 。 这 之 后 ， 类 方法 能 够 以 各 种 方式 使 用 属 














性 _order。 例 如 ， 下 面 这 个 人 简单 的 类 利用 这 个 顺序 
实现 了 一 个 方法 ， 用 来 将 实例 数据 序列 化 为 一 行 
CSV 数 据 : 





class Structure 


(metaclass=OrderedMeta): 
def 


as_csv(self): 
return 


',',join(str(getattr(self,name)) for 


name in 


self._order ) 
# Example use 


class Stock 


(Structure): 
name = String() 
shares = Integer() 
price = Float() 
def 


__init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 


Le 


下 面 的 交互 陈 会 话 展 示 了 如 何 使 用 例子 中 的 


Stock 类 : 


>>> s = Stock('G00G',100,490.1) 
>>> S.name 
'GOOG' 


>>> S.as_Csv() 

"GOOG, 100, 490.1' 

>>> t = Stock('AAPL','a lot', 610.23) 
Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 

File "dupmethod.py", line 34, in __init__ 
TypeError: shares expects <class 'int'> 
>>> 





9.14.3 Wir 


本 节 的 全 部 核心 束 在 _prepare_ (0 方法 上 ， 该 
特殊 方法 定义 在 元 类 OrderedMeta 中 。 访 方法 会 在 
类 定义 一 开始 的 时 候 立 刻 得 到 调用 ， 调 用 时 以 类 名 
和 基 类 名 称 作为 参数 。 它 必须 返回 一 个 映射 型 对 象 

(mapping object) 供 处 理 关 定义 体 时 使 用 。 由 于 返 
回 的 是 OrderedDict 实 例 而 不 是 普通 的 字典 ， 因 此 类 
中 各 个 属性 间 的 顺序 束 可 以 方便 地 得 到 维护 。 


如 果 想 使 用 目 定 义 的 字典 型 对 象 ， 那 么 对 上 述 
功能 进行 扩展 也 是 有 可 能 的 。 例 如 ， 考 虑 下 面 这 个 














解决 方案 ， 它 可 以 拒绝 关中 出 现 重 复 的 定义 : 





from collections import 


OrderedDict 
class NoDupOrderedDict 


(OrderedDict ): 
def 


__init__(self, clsname): 
self.clsname = clsname 
super().__init__() 

def 


__setitem__(self, name, value): 
if 


name in 


self: 
raise TypeError 


('{} already defined in {}'.format(name, self.clsname) ) 
Super().__setitem__(name, value) 
class OrderedMeta 


(type): 
def 


new_ (cls, clsname, bases, clsdict): 


d = dict(clsdict) 
d['_order'] = [name for 


name in 


clsdict if 


name[O] != '_'] 
return 


type.__new__(cls, clsname, bases, d) 
@classmethod 


def 


__prepare__(cls, clsname, bases): 
return 


NoDupOrderedDict(clsname) 





如 果 使 用 这 个 元 类 ， 并 且 创 建 一 个 类 让 它 拥有 
重复 的 属性 ， 看 看 会 友 生 什么 吧 : 


>>> class A 





(metaclass=OrderedMeta): 


def 


spam(self): 


pass 


def 


spam(self): 


pass 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 4, inA 
File "dupmethod2.py", line 25, in _ setitem _ 
(name, self.clsname) ) 
TypeError: spam already defined in A 
>>> 
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典 ， 当 创建 最 终 的 类 对 象 时 ， 还 是 需要 将 这 个 字典 





转换 为 一 个 合适 的 dict 实 例 才 行 。 这 正 是 d= 
dict(clsdicb 这 行 代码 的 目的 所 在 。 


能 够 获取 到 关 属 性 的 定义 顺序 看 起 来 似乎 微 个 
足 道 ， 但 对 于 茶 些 特定 类 型 的 应 用 来 说 却 是 非常 重 
要 的 功能 。 例 如 ， 在 一 个 对 象 基 系 映 射 散 (ORM) 
类 的 编写 方式 可 能 同 示例 中 展示 的 那样 很 相 
以 : 





class Stock 


(Model): 
name = String() 
shares = Integer() 


price = Float() 








而 在 底层 ， 可 能 想 获 取 到 属性 定义 的 顺序 ， 以 
此 将 对 象 映射 到 数据 库 表 项 中 的 元 组 或 者 行 上 
《 即 ， 和 示例 中 as_csv0 方 法 实现 的 功能 类 似 ) 。 
本 贡 给 出 的 解雇 方案 是 非常 直截了当 的 ， 而 且 通 第 
情况 下 比 其 他 可 选 的 方法 要 更 简单 〈 一 般 会 通过 在 
摘 述 符 类 中 维护 一 个 隐 荐 的 计数 器 来 实现 ) 。 














9.15 ”定义 一 个 能 接受 可 选 参数 的 
元 类 


9.15.1 问题 





我 们 想 定义 一 个 元 类 ， 使 得 在 定义 类 的 时 候 能 
够 提供 可 选 的 参数 。 这 样 的 话 在 创建 类 型 的 时 候 可 
以 对 处 理 过 程 进行 控制 或 配置 。 


9.15.2 ”解决 方案 
在 定义 类 的 时 候 ，Python 人 允许 我 们 在 cdlass 语 句 


中 通过 使 用 metaclass 关 键 字 参数 来 指定 元 类 。 例 
如 ， 在 抽象 其 类 中 我 们 可 以 这 样 指定 元 类 : 








from abc import 


ABCMeta, abstractmethod 


class IStream 


(metaclass=ABCMeta): 
@abstractmethod 
def 


read(self, maxsize=None): 


pass 


@abstractmethod 
def 


write(self, data): 
pass 








但 是 ， 在 目 定 义 的 元 类 中 我 们 还 可 以 提供 额外 
的 关键 字 参 数 ， 束 像 这 样 : 


class Spam 


(metaclass=MyMeta, debug=True, synchronize=True): 








要 在 元 类 中 文 持 这 样 的 关键 字 参数 ， 需 要 保证 
在 定义 _ prepare_()、__new OWA init OÑA 
HEH keyword-only 5% RI E CN] WA T 
FF: 


pe 


class MyMeta 


(type): 
# Optional 


@classmethod 
def 


__prepare__(cls, name, bases, *, debug=False, synchronize=False) 
# Custom processing 


return 
super().__prepare__(name, bases) 


# Required 


def 
__new__(cls, name, bases, ns, *, debug=False, synchronize=False) 
# Custom processing 
return 
super().__new__(cls, name, bases, ns) 


# Required 


def 


__init__(self, name, bases, ns, *, debug=False, synchronize=Fals 
# Custom processing 


Super().__init__(name, bases, ns) 





9.15.3 wir 


要 对 元 类 添加 可 选 的 关键 字 参 数 ， 需 要 理解 类 





创建 过 程 中 所 涉及 的 所 有 步骤 。 这 是 因为 额外 的 参 
数 会 传递 给 每 一 个 与 该 过 程 相关 的 方法 。 
”prepare_() 方 法 是 第 一 个 被 调 用 的 ， 用 来 创建 类 
的 名 称 空 间 ， 这 是 在 处 理 类 的 定义 体 之 前 需要 完成 
的 。 一 般 来 说 ， 这 个 方法 只 是 简单 地 返回 一 个 字典 
或 者 其 他 的 映射 型 对 象 。_new_(0) 方 法 用 来 实例 
化 最 终 得 到 的 类 型 对 象 ， 它 会 在 类 的 定义 体 被 完全 
执行 完毕 后 才 调 用 。 最 后 调用 的 是 _init_ 0 方法 ， 
用 来 执行 任何 其 他 额外 的 初始 化 步骤 。 


当 编 写 元 类 时 ， 比 较 第 见 的 做 法 是 只 定义 一 个 
new ORË init 0) 方法， 而 不 会 同时 定义 这 
两 者 。 但 是 ， 如 果 打 算 接 受 和 额外 的 关键 字 参 数 ， 那 
么 这 两 个 方法 都 必须 提供 ， 并 且 要 提供 可 兼容 的 函 
数 答 名。 默认 的 _prepare_() 方 法 可 接受 任意 的 关 














键 字 参 数 ， 只 是 会 急 略 它们 。 唯 一 一 种 需要 目 行 定 
义 _prepare_() 方 法 的 情况 束 是 当 额 外 的 参数 多 少 
会 影响 到 名 称 空间 的 创建 管理 时 。 





本 节 中 使 用 了 keyword-only 参 数 ， 这 也 反映 出 
一 个 事实 ， 即 这 样 的 参数 在 创建 类 的 过 程 中 只 会 以 
关键 字形 式 提 供 。 


用 关键 字 参 数 来 配置 元 类 也 可 以 看 做 是 通过 类 
变量 来 实现 同一 目标 的 另 一 种 方式 。 例 如 我 们 也 可 
以 这 样 实现 对 类 的 配置 : 














class Spam 


(metaclass=MyMeta): 
debug = True 


synchronize = True 





通过 提供 额外 参数 的 方式 来 实现 ， 这 么 做 的 优 
点 在 于 它们 不 会 污染 类 的 名 称 空间 。 因 为 这 些 参 数 
只 对 于 类 的 创建 而 言 有 意义 ， 对 于 类 中 需要 执行 的 
语句 来 说 是 没有 实际 意义 的 。 此 外 ， 它 们 对 于 
_ prepare (0 方法 来 说 是 可 见 的 ， 而 该 方法 会 在 处 
理 类 定义 体 中 任何 语句 之 前 先 得 到 运行 。 而 男 一 方 
面 ， 类 变量 只 能 被 元 类 的 _new_ 0 和 init_0 方 














法 访问 。 


9.16 ”在 *args 和 和 **kwargs 上 强制 规 
定 一 种 参数 签名 


9.16.1 问题 


我 们 已 经 编写 了 一 个 使 用 *args 和 **kwargs 作 为 
参数 的 函数 或 者 方法 ， 这 样 使 得 函数 成 为 通用 型 的 
( 即 ， 可 接受 任意 数量 和 类 型 的 参数 ) 。 但 是 我 们 
也 想 对 传 入 的 参数 做 检查 ， 看 看 它们 是 否 匹 配 了 革 
个 特定 的 函数 调用 签名 。 





9.16.2 解决 方案 


任何 关于 操作 函数 调用 签名 的 问题 ， 都 应 该 使 
用 inspect 模 块 中 的 相应 功能 。 这 里 我 们 尤其 感 兴 趣 
的 是 Signature 和 Parameter 这 两 个 类 。 下 面 用 一 个 交 


互 式 的 例子 来 说 明 如 何 创建 一 个 函数 签名 : 











>>> from inspect import 


Signature, Parameter 
>>> # Make a signature for a func(x, y=42, *, z=None) 


>>> parms = [ Parameter('x', Parameter .POSITIONAL_OR_KEYWORD), 


Parameter('y', Parameter.POSITIONAL_OR_KEYWORD, defau 


Parameter('z', Parameter.KEYWORD_ONLY, default=None) 
>>> Sig = Signature(parms) 
>>> print 


(sig) 
(x, y=42, *, z=None) 
>>> 





一 旦 有 了 签名 对 象 ， 残 可 以 通过 对 象 的 bind0) 
方法 轻松 将 其 绑 定 到 *args 和 *##kwargs 上 。 示 例如 
下 : 





>>> def 


func(*args, **kwargs): 
bound_values = sig.bind(*args, **kwargs) 


for 
name, value in 


bound_values.arguments.items(): 


print 


(name, value) 


>>> # Try various examples 
>>> func(1, 2, z=3) 


>>> func(1) 
x 1 
>>> func(1, z=3) 


>>> func(y=2, x=1) 

x 1 

y 2 

>>> func(1, 2, 3, 4) 

Traceback (most recent call last): 


File "/usr/local/lib/python3.3/inspect.py", line 1972, in _bin 
raise TypeError 


('too many positional arguments' ) 
TypeError: too many positional arguments 
>>> func(y=2) 

Traceback (most recent call last): 


File "/usr/local/lib/python3.3/inspect.py", line 1961, in _bin 


raise TypeError 


(msg) from None 


TypeError: 'x' parameter lacking default value 
>>> func(1, y=2, x=3) 
Traceback (most recent call last): 


File "/usr/local/lib/python3.3/inspect.py", line 1985, in _bin 
'farg!r}'.format(arg=param.name) ) 
TypeError: multiple values for argument 'x' 
>>> 











可 以 看 到 ， 将 签名 对 象 绑 定 到 传 入 的 参数 上 会 
强制 施行 所 有 常见 的 函数 调用 规则 ， 包 括 要 求 必 传 








的 参数 例子 中 为 xz) 、 默 认 值 、 重 复 的 参数 等 。 


关于 强制 施行 函数 签名 ， 这 里 有 一 个 更 为 具体 
的 例子 。 在 代码 中 ， 基 类 定义 了 一 个 极其 通用 的 
init (0 方法， 但 是 子 类 只 提供 一 种 期 望 接受 的 签 
名 形式 。 











from inspect import 


Signature, Parameter 


def 


make_sig(*names): 


parms = [Parameter(name, Parameter .POSITIONAL_OR_KEYWORD ) 


for 
name in 
names | 
return 
Signature(parms) 


class Structure 


__Signature__ = make_sig() 
def 


__init__(self, *args, **kwargs): 


bound_values = self.__signature__.bind(*args, **kwargs) 


for 


name, value in 


bound_values.arguments.items(): 


setattr(self, name, value) 


# Example use 


class Stock 


(Structure): 


__Signature__ = make_sig('name', 'shares', 


'price') 


class Point 


(Structure): 
__Signature__ = make_sig('x', 


y') 





下 和 面 的 交互 式 会 话说 明了 Stock 类 是 如 何 工作 


import inspect 


print 


(inspect.signature(Stock) ) 

(name, shares, price) 

>>> si = Stock('ACME', 100, 490.1) 
>>> s2 = Stock('ACME', 100) 
Traceback (most recent call last): 


TypeError: 'price' parameter lacking default value 
>>> S3 = Stock('ACME', 100, 490.1, shares=50) 
Traceback (most recent call last): 


TypeError: multiple values for argument 'shares' 
>>> 





9.16.3 ”讨论 


当 需 要 编写 通用 型 的 库 、 编 与 装饰 器 或 者 实现 
代理 时 ， 使 用 形 参 为 x+args 和 **kwargs 的 函数 是 非常 
第 见 的 。 但 是 ， 这 种 函数 的 一 个 缺点 就 是 如 果 想 实 
现 目 己 的 参数 检查 机 制 ， 代 码 很 快 就 会 变 的 容 拙 而 
混乱 。 这 方面 的 例子 可 参考 8.11 闻 。 使 用 签名 对 象 
则 能 简化 这 个 步骤 。 











在 解决 方案 的 最 后 一 个 例子 中 ， 如 果 使 用 目 定 
义 的 元 类 来 创建 签名 对 象 也 是 很 有 意义 的 。 下 面 的 
示例 展示 了 这 种 蔡 代 方案 是 如 何 实现 的 : 











from inspect import 


Signature, Parameter 


def 


make_sig(*names): 


parms = [Parameter(name, Parameter .POSITIONAL_OR_KEYWORD ) 
for 


name in 


names | 
return 


Signature(parms ) 


class StructureMeta 


(type): 
def 


new_ (cls, clsname, bases, clsdict): 


clsdict[' __signature__'] = make_sig(*clsdict.get(' field 


return 


super().__new__(cls, clsname, bases, clsdict) 


class Structure 


(metaclass=StructureMeta): 
_fields = [] 
def 


__init__(self, *args, **kwargs): 


bound_values = self. _signature__.bind(*args, 


for 


name, value in 


bound_values.arguments.items(): 
setattr(self, name, value) 
# Example 


class Stock 


(Structure): 


_fields = ['name', 'shares', 'price'] 


class Point 


**kwargs) 


(Structure): 
_fields = ['x', 'y'] 








当 定 义 定 制 化 的 签名 时 ， 把 签名 对 象 保 存 到 一 
RAN PE signature Par eR AA AY. OO 
果 这 么 做 了 ， 使 用 了 inspect 模 块 的 代码 在 执行 反射 

(introspection) 操作 时 将 能 够 获取 到 签名 并 将 其 作 
为 图 数 的 调用 约定 。 示 例如 下 : 














>>> import inspect 


>>> print 


(inspect.signature(Stock) ) 
(name, shares, price) 
>>> print 


(inspect.signature(Point ) ) 
(x, y) 
>>> 





9.17 在 类 中 强制 规定 编码 约定 
9.17.1 问题 

我 们 的 程序 由 一 个 庞大 的 类 继承 体系 组 成 ， 我 
们 想 强 制 规 定 一 些 编 码 约定 (或 者 做 一 些 诊 有 汤 工 
VE) ， 使 得 维护 这 个 程序 的 程序 员 能 够 轻松 一 些 。 


9.17.2 ”解决 方案 








如 果 想 对 类 的 定义 进行 监控 ， 通 第 可 以 用 元 类 
来 解决 。 一 个 基本 的 元 类 通 弟 可 以 通过 从 type 中 继 
承 ， 然 后 重 定义 它 的 _new_ 0 或 者 _init_ 0 方法 
即 可 。 示 例如 下 : 











class MyMeta 


(type): 
def 


__new__(self, clsname, bases, clsdict): 
# clsname is name of class being defined 


# bases is tuple of base classes 


# clsdict is class dictionary 


return 


super().__new__(cls, clsname, bases, clsdict) 








万 一 种 方式 是 定义 _init _(): 
class MyMeta 


(type): 
def 


__init__(self, clsname, bases, clsdict): 
super().__init__(clsname, bases, clsdict) 
# clsname is name of class being defined 


# bases is tuple of base classes 


# clsdict is class dictionary 





要 使 用 元 类 ， 一 般 来 说 会 将 其 作用 到 一 个 项 层 
基 类 上 ， 然 后 让 其 他 子 类 继承 之 。 示 例如 下 : 


class Root 


(metaclass=MyMeta) : 
pass 





元 闫 的 一 个 核心 功能 就 是 允许 在 定义 类 的 时 候 
对 类 本 喘 的 内 容 进行 检查 。 在 重新 定义 的 _init_(0) 
方法 中 ， 我 们 可 以 目 由 地 检查 类 字典 、 基 类 以 及 其 
他 更 多 信息 。 此 外 ， 一 旦 为 茶 个 类 指定 了 元 闫 ， 该 











类 的 所 有 子 类 都 会 自动 继承 这 个 特性 。 因 此 ， 聪 明 
的 框架 实现 者 可 以 在 庞大 的 类 继承 体系 中 为 其 中 一 
个 顶层 基 类 指定 一 个 元 类 ， 然 后 就 可 以 获取 到 位 于 
该 基 类 之 下 的 所 有 子 类 的 定义 了 。 


下 面 是 一 个 有 些 异 想 天 开 的 例子 ， 这 里 的 元 类 
可 用 来 拒绝 类 定义 中 包含 小 写 混 用 的 方法 名 (也 
许 这 束 是 为 了 恶心 一 下 Java 程 序 员 ) : 





class NoMixedCaseMeta 


(type): 
def 


__new__(cls, clsname, bases, clsdict): 


for 

name in 
clsdict: 

if 
name.lower() != name: 

raise TypeError 

('Bad attribute name: ' + name) 

return 


super().__new__(cls, clsname, bases, clsdict) 


class Root 


(metaclass=NoMixedCaseMeta): 


pass 


class A 


(Root ) : 
def 


foo_bar(self): # Ok 


pass 


class B 


(Root): 
def 


fooBar (self): # TypeError 


pass 








作为 一 个 更 加 高 级 而 且 有 用 的 例子 ， 下 面 定 义 
的 元 类 可 检查 子 类 中 是 否 有 重新 定义 的 方法 ， 确 你 
它们 的 调用 签名 和 父 类 中 原始 的 方法 相同 。 








from inspect import 


signature 
import logging 


class MatchSignaturesMeta 


(type): 
def 


__init__(self, clsname, bases, clsdict): 
super(). init (clsname, bases, clsdict) 
sup = super(self, self) 
for 


name, value in 


clsdict.items(): 
if 


name.startswith('_') or not 


callable(value): 
continue 


# Get the previous definition (if any) and compare t 


prev_dfn = getattr(sup, name, None) 


if 
prev_dfn: 
prev_sig = signature(prev_dfn) 
val_sig = signature(value) 
if 
prev_sig != val_sig: 
logging.warning('Signature mismatch in %s. % 
value.__qualname__, prev_sig, va 
# Example 


class Root 


(metaclass=MatchSignaturesMeta) : 


pass 


class A 


(Root): 
def 


foo(self, x, y): 
pass 


def 


Spam(self, x, *, z): 
pass 


# Class with redefined methods, but slightly different signature 


class B 


(A): 
def 


foo(self, a, b): 
pass 


def 


spam(self,x,z): 
pass 





如 果 运 行 上 述 代 码 ， 将 得 到 如 下 的 输出 : 


WARNING:root:Signature mismatch in B.spam. (self, x, *, Z) != (sé 
WARNING: root:Signature mismatch in B.foo. (self, x, y) != (self, 





类 似 这 样 的 告警 信息 可 能 对 于 捕获 微妙 的 程序 
bug 会 很 有 帮助 。 比 方 说 ， 东 个 方法 依赖 于 传递 给 
它 的 天 键 字 参 数 ， 如 果子 类 修改 了 参数 名 称 那 么 束 


oy yh, 
会 朋 溃 。 








9.17.3 ”讨论 


在 一 个 大 型 的 面 品 对象 程 序 中 ， 有 时 候 通 过 元 
类 来 控制 类 的 定义 会 十 分 有 用 。 元 类 可 以 监视 类 的 
EX, FY FR a PEP R AGES BY BE oC LE 
问题 (比如 使 用 了 不 兼容 的 方法 签名 )。 


有 些 人 可 能 会 认为 像 这 种 错误 最 好 用 程序 分 析 
工具 或 者 IDE 来 捕获 。 确 实 ， 这 类 工具 是 非常 有 用 
的 。 但 是 ， 如 来 正在 创建 一 个 由 其 他 人 使 用 的 框 淋 
或 者 库 ， 那 么 通 向 是 无 法 控制 其 他 开发 者 的 开 及 沉 
程 的 《如 果 他 们 不 用 这 类 工具 怎么 办 ? ) 。 因 此 ， 
对 于 特定 类 型 的 应 用 ， 在 元 类 中 做 一 些 额 外 的 检查 
a en een 
用 户 体验 。 


至 于 在 元 类 中 是 重新 定义 _new_0 还 是 
imt _()， 这 取决 于 我 们 打算 如 何 使 用 得 到 的 结果 
类 。_new_0 会 在 类 创建 之 前 先 得 到 调用 ， 当 元 
类 想 以 某 种 方式 修改 类 的 定义 时 (通过 修改 类 字典 
中 的 内 容 ) 一般 会 用 这 种 方法 。 而 _ init_ 0 方法 会 
































在 类 已 经 创建 完成 之 后 才 得 到 调用 ， 如 果 想 编写 代 
码 同 完全 成 形 (fully formed) 的 类 对 象 打交道 ， 那 
么 重新 定义 _ init 0 会 很 有 用 。 在 最 后 那个 示例 中 
我 们 必须 重新 定义 _init _()。 因 为 这 里 用 到 了 
Super(0) 函 数 来 得 找 父 类 中 的 定义 ， 而 这 只 有 当 类 实 
定之 后 才 行 得 通 


最 后 那个 示例 也 展示 了 对 Python 函 数 签名 对 象 
的 使 用 。 从 本 质 上 说 ， 元 类 首先 获取 类 中 的 每 一 个 
Pte acest aioe 方法 等 ) ， 然 后 查找 它们 
个 在 基 类 中 也 有 一 个 定义 ， 如 果 有 的 话 残 通过 
ae signature() 来 比较 它们 的 调用 签名 是 否 一 
致 。 














最 后 但 同样 重要 的 是 ，super(self, self) 这 行 代码 
ee oe 。 局 
上 的 定义 ， 它 们 组 成 了 self 的 父 类 。 











9.18 ”通过 编程 的 方式 来 定义 类 


9.18.1 问题 





我 们 编写 的 代码 最 终 需 要 创建 一 个 新 的 类 对 
象 。 我 们 想到 将 组 成 类 定义 的 源 代 码 及 送 到 一 个 字 
符 串 中 ， 然 后 利用 类 似 execO 这 样 的 函数 来 执行 ， 
但 是 我 们 希望 能 有 一 个 更 加 优雅 的 解决 方案 。 


9.18.2 ”解决 方案 


我 们 可 以 使 用 函数 types.new_class() 来 实例 化 新 
的 类 对 象 。 所 有 要 做 的 束 是 提供 类 的 名 称 、 父 类 名 
组 成 的 元 组 、 关 键 字 参数 以 及 一 个 用 来 产生 类 字典 

(class dictionary) 的 回调 ， 类 字典 中 包含 看 类 的 成 
员 。 示 例如 下 : 











# stock.py 


# Example of making a class manually from parts 


# Methods 


def 


__init__(self, name, shares, price): 
self.name = name 
self.shares = shares 
self.price = price 


def 
cost(self): 
return 
self.shares * self.price 
cls_ dict = { 


' init 
‘cost' : cost, 


init__, 





} 


# Make a class 


import types 


Stock = types.new class('Stock', (), {}, lambda 


ns: ns.update(cls_dict)) 
Stock. module = name 











这 么 做 会 产生 一 个 普通 的 类 对 象 ， 和 所 期 望 的 


>>> s = Stock('ACME', 50, 91.1) 
>>> S 
<stock.Stock object at 0x1006a9b10> 





在 调用 完 types.new_classO 之 后 对 
Stock.， module “的 赋值 操作 是 这 个 解决 方案 中 的 
微妙 之 处 。 每 当 定 义 一 个 类 时 ， 其 _module_ 属性 
中 包含 的 名 称 就 是 定义 该 类 时 所 在 的 模块 名 。 这 个 
名 称 会 用 来 为 _repr_ 0 这 样 的 方法 产生 输出 ， 同 时 
也 会 被 各 种 库 所 用 ， 比 如 pickle。 因 此 ， 为 了 让 创 
建 的 类 成 为 一 个 “正常 ”? 的 类 ， 需 要 保证 将 
_ modue ”属性 设置 妥当 。 


如 果 想 创建 的 类 还 涉及 一 个 不 同 的 元 类 ， 可 以 
在 types.new_class0 的 第 三 个 参数 中 进行 指定 。 示 例 
如 下 : 





























>>> import abc 


>>> Stock = types.new class('Stock', (), {'metaclass': abc.ABCMe 


lambda 


ns: ns.update(cls_dict)) 





>>> Stock. module = name 
>>> Stock 
<class 





' main 


.Stock'> 
>>> type(Stock) 
<class 


‘abc 


.ABCMeta'> 
>>> 





第 三 个 参数 中 还 可 以 包含 其 他 的 关键 字 参 数 。 
例如 ， 下 面 这 个 类 定义 : 





class Spam 


(Base, debug=True, typecheck=False): 





转换 成 new_classO 调 用 后 是 这 样 的 : 





Spam = types.new_class('Spam', (Base, )， 
{'debug': True, 'typecheck': False}, 


lambda 


ns: ns.update(cls_dict)) 








new_class() 的 第 四 个 参数 是 最 为 神秘 的 。 但 它 
se a dcin 用 来 产生 类 
的 命名 空间 。 这 通 弟 者 会 是 一 个 字典 ， 但 实际 上 可 
以 是 任何 由 prepare_() 方 法 〈 见 9.14 节 ) 返回 的 
对 象 。 E 





映射 操作 为 命名 空间 中 添加 新 的 条 目 
9.18.3 ”讨论 
能 够 制造 出 新 的 类 对 象 在 某 些 特定 的 上 下 文中 


会 很 有 用 。 其 中 一 个 我 们 比较 熟悉 的 例子 和 
collections.namedtupleO 函 数 有 关 。 示 例如 下 : 


>>> Stock = collections.namedtuple('Stock', ['name', 'shares', ' 
>>> Stock 
<class '__main__.Stock'> 


>>> 





AIBA ASS RE AS BAR AS E], namedtuple()(# 
用 了 exec()。 但 是 ， 下 面 这 个 简单 的 函数 可 直接 创 
建 出 类 : 





import operator 


import types 


import sys 


def 


named_tuple(classname, fieldnames): 
# Populate a dictionary of field property accessors 


cls_ dict = { name: property(operator.itemgetter(n) ) 
for 


n, name in 
enumerate(fieldnames) } 


# Make a __new__ function and add to the class dict 


def 


new__(cls, *args): 
i 


len(args) != len(fieldnames): 
raise TypeError 


('Expected {} arguments'.format(len(fieldnames) ) ) 
return 


tuple. new (cls, args) 
cls_dict[' new '] = __new 


# Make the class 


cls = types.new_class(classname, (tuple,), {}, 
lambda 


ns: ns.update(cls_dict)) 


# Set the module to that of the caller 


cls. module = sys._getframe(1).f_globals[' name__'] 
return 





上 述 代 人 码 的 最 后 部 分 利用 了 所 谓 的 “frame 
hack” 技 巧 ， 通 过 sys._getframe() 来 获取 调用 者 所 在 
的 模块 名 称 。 有 关 frame hack 的 男 一 个 例子 可 在 2.15 
节 中 找到 。 


下 面 的 示例 展示 了 上 述 代 码 是 如 何 工作 的 : 





>>> Point = named_tuple('Point', ['x', 'y']) 


>>> Point 

<class '__main__.Point'> 
>>> p = Point(4, 5) 

>>> len(p) 

2 


>>> p.x 

>>> p.y 

5 

>>> p.x = 2 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

AttributeError: can't set attribute 

>>> print 

('%S %S' % p) 

45 


>>> 








本 市 使 用 的 技术 中 一 个 重要 的 方面 在 于 对 元 类 
提供 了 适当 文 持 。 我 们 可 能 会 倾 铝 于 通过 和 耳 接 实例 
化 一 个 元 类 来 创建 类 。 示 例如 下 : 


Stock = type('Stock', (), cls_dict) 


这 种 方法 的 问题 在 于 它 忽略 了 有 某 些 重要 的 步 
又 ， 比 如 调用 元 类 的 _prepare_() 方 法 。 通 过 采用 
types.new_classO0， 可 以 保证 所 有 必要 的 初始 化 步骤 
都 能 得 到 执行 。 例如 ， 在 types.new_class() 中 给 定 的 
第 四 个 参数 是 一 个 回调 函数 ， 它 所 接受 的 映射 型 对 


象 正 是 由 __prepare_ 0 方法 返回 的 。 


如 果 只 想 执 行 准备 步 又 ， 可 以 使 用 
types.prepare_classO。 示 例如 下 : 


import types 


metaclass, kwargs, ns = types.prepare_class('Stock', (), {'metac 





这 么 做 会 找到 合适 的 元 类 并 调用 它 的 
_prepare_ 0 方法 。 元 类 、 剩 下 的 关键 字 参 数 以 及 
准备 好 的 命名 空间 都 会 得 到 返回 。 

要 获得 更 多 信息 ， 请 参考 PEP 
3115 Chttp://www.python.org/dev/peps/pep-3115 ) 


以 及 Python 的 相关 文档 
(http://docs.python.org/3/reference/datamodel.html%2 





O 


9.19 ”在 定义 的 时 候 初 始 化 类 成 员 
9.19.1 问题 


我 们 想 在 定义 类 的 时 候 对 部 分 成 员 进 行 初 始 
化 ， 而 不 是 在 创建 类 实例 的 时 候 完 成 。 





9.19.2 解决 方案 


在 定义 类 的 时 候 执行 初始 化 或 者 配置 操作 是 元 
类 的 经 典 用 途 。 从 本 质 上 说 ， 元 类 是 在 定义 类 的 时 
候 触 肥 执行， 此 时 可 以 执行 额外 的 步骤 。 


下 面 的 示例 采用 这 种 思想 创建 了 一 个 类 似 于 
collections 模 块 中 命名 元 组 的 类 : 





import operator 


class StructTupleMeta(type): 
def _ init (cls, *args, **kwargs): 
Super().__init__(*args, **kwargs) 
for n, name in enumerate(cls. fields): 
setattr(cls, name, property(operator.itemgetter(n) )) 


class StructTuple(tuple, metaclass=StructTupleMeta): 
_fields = [] 
def _new_(cls, *args): 
if len(args) != len(cls._fields): 
raise ValueError('{} arguments required'.format(len( 
return super().__new__(cls,args) 





上 述 代码 允许 我 们 定义 简单 的 基于 元 组 的 数据 
结构 ， 示 例如 下 : 


class Stock(StructTuple): 
_fields = ['name', 'shares', 'price'] 


class Point(StructTuple): 
_fields = ['x', 'y'] 





可 以 看 看 如 何 使 用 它们 : 


>>> S = Stock('ACME', 50, 91.1) 
>>> S 

('ACME', 50, 91.1) 

>>> s[0] 

"ACME ' 

>>> Ss.name 

"ACME' 

>>> s.shares * s.price 


4555.0 

>>> s.shares = 23 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

AttributeError: can't set attribute 


>>> 





9.19.3 ”讨论 





本 节 中 ， 类 StructTupleMeta 接 受 类 属性 _fields 


中 的 属性 名 称 ， 并 将 它们 转换 为 属性 方法 ， 使 得 这 
些 方法 能 够 访问 到 元 组 的 某 个 特定 槽 位 。 函 数 
operator.itemgetter() 创 建 了 一 个 访问 器 函数 

(accessor function) ， 而 函数 property0O 将 其 转换 成 
一 个 property 属 性 。 


本 蔬 中 最 为 二 手 的 部 分 在 于 如 何 知 道 不 同 的 初 
始 化 步骤 在 什么 时 候 发 生 。StructTupleMeta 中 的 
init (0 方法 针对 每 个 定义 的 类 只 会 调用 一 次 。 参 
数 cls 代 表 看 所 定义 的 类 。 从 本 质 上 说 ， 我 们 给 出 的 
代码 利用 类 变量 _ fields 来 接受 新 定义 的 类 ， 然 后 为 
其 添加 一 些 新 的 部 分 。 


类 StructTuple 作 为 公共 基 类 让 用 户 从 它 继 承 。 
类 中 的 _new_ 0 方法 负责 产生 新 的 实例 。 这 里 对 
_ new_() 的 使 用 有 些 不 同 寻 常 ， 部 分 原因 在 于 我 
们 修改 了 元 组 的 调用 签名 ， 这 使 得 现在 的 调用 约定 
看 起 来 束 和 普通 的 调用 方式 一 致 了 : 














s = Stock('ACME', 50, 91.1) 


s = Stock(('ACME', 50, 91.1)) # Error 





和 _ init QA), — new 0 方法 会 在 类 实例 
创建 出 来 之 前 得 到 触发 。 由 于 元 组 是 不 可 变 对 象 
(immutable) ， 一 旦 它们 被 创建 出 来 承 无 法 再 做 任 
WA. KE, int 0 方法 在 类 实例 创建 的 过 
程 中 触发 的 时 机 太 晚 ， 以 至 于 没 法 按 我 们 想 要 的 方 
式 修改 实 例 。 这 束 是 为 什么 我 们 要 定义 _new_0 
的 原因 。 


尺 省 本 市 的 内 容 比较 短小 ， 但 通过 和 仔细 地 学 习 
和 研究 后 ， 读 者 对 于 Python 类 的 定义 、 类 实例 的 创 
建 过 程 以 及 元 类 和 类 中 不 同 的 特殊 方法 将 在 何 时 得 
到 调用 有 着 深刻 的 理解 ， 这 征 大 有 益处 的 。 














PEP 422 Chttp://www.python.org/dev/peps/pep- 
0422 ) 中 还 提供 了 一 种 可 选 的 蔡 代 方案 来 完成 本 节 
中 描述 的 任务 。 但 是 ， 在 写作 本 书 时 ， 这 份 PEP 还 
没有 得 到 采纳 和 接受 。 尺 管 如 此 ， 如 果 你 使 用 的 
Python 版 本 要 和 高 于 3.3 的 话 还 是 值 得 去 看 一 看 的 。 








9.20 ”通过 函数 注解 来 实现 方法 重 
载 


9.20.1 问题 


我 们 已 经 学 习 过 函数 参数 注解 方面 的 知识 ， 而 
我 们 想 利用 这 种 技术 通过 基于 参数 类 型 的 方式 来 实 
现 多 分 派 (multiple-dispatch， 或 称 为 方法 重 载 ) 。 
但 是 并 不 清楚 这 其 中 要 涉及 哪些 技术 ， 甚 至 对 于 这 
么 做 是 否 为 一 个 好 主意 还 存 有 疑虑 。 





9.20.2 解决 方案 


本 市 的 思想 基于 一 个 简单 的 事实 一 一 即 ， 由 于 
Python 允许 对 参数 进行 注解 ， 那 么 如 条 可 以 像 下 面 
这 样 编号 代 公 束 好 了 : 











class Spam 


def 


bar(self, x:int, y:int): 
print 


('Bar 1:', x, y) 
def 


bar(self, s:str, n:int = 0): 
print 


('Bar 2:', s, n) 


s = Spam() 
s.bar(2, 3) # Prints Bar 1: 2 3 
s.bar('hello' ) # Prints Bar 2: hello © 





下 面 的 解决 方案 正 是 应 对 于 此 ， 我 们 使 用 了 元 
类 以 及 描述 符 来 实现 : 





# multiple.py 


import inspect 


import types 


class MultiMethod 


Represents a single multimethod. 


def 


__init__(self, name): 
self. methods {} 
self.__name__ = name 


def 


register(self, meth): 


mre 


Register a new method as a multimethod 


Sig = inspect.signature(meth) 


# Build a type signature from the method's annotations 


for 


name, parm in 


Sig.parameters.items(): 
if 


name == 'self': 
continue 


if 


parm.annotation is 


inspect.Parameter.empty: 
raise TypeError 


"Argument {} must be annotated with a type'. 


) 


if not 


isinstance(parm.annotation, type): 
raise TypeError 


"Argument {} annotation must be a type'.form 


if 


parm.default is not 


inspect.Parameter.empty: 
self. _methods[tuple(types)] = meth 
types.append(parm. annotation) 


self. _methods[tuple(types)] = meth 


def 


_Ccall (self, *args): 


Call a method based on type signature of the arguments 


types = tuple(type(arg) for 


arg in 
args[1:]) 
meth = self._methods.get(types, None) 
if 
meth: 
return 
meth(*args) 
else 


raise TypeError 


('No matching method for types {}'.format(types) ) 


def 


__get__(self, instance, cls): 


mre 


Descriptor method needed to make calls work in a class 


if 


instance is not 


None: 
return 


types.MethodType(self, instance) 
else 


return 


self 


class MultiDict 


(dict): 


mre 


Special dictionary to build multimethods in a metaclass 


def 


__setitem__(self, key, value): 
if 


key in 


self: 
# If key already exists, it must be a multimethod or 


current_value = self[key] 
if 


isinstance(current_value, MultiMethod): 


current_value.register (value) 
else 


mvalue = MultiMethod(key) 
mvalue.register(current_value) 
mvalue.register (value) 


super().__setitem__(key, mvalue) 
else 


super().__setitem__(key, value) 


class MultipleMeta 


(type): 


mre 


Metaclass that allows multiple dispatch of methods 


def 


__new__(cls, clsname, bases, clsdict): 
return 


type.__new__(cls, clsname, bases, dict(clsdict) ) 
@classmethod 


def 


__prepare__(cls, clsname, bases): 
return 


MultiDict() 





要 使 用 这 个 类 ， 可 以 像 这 样 编写 代码 : 


class Spam 


(metaclass=MultipleMeta): 
def 


bar(self, x:int, y:int): 
print 


('Bar 1:', x, y) 
def 


bar(self, s:str, n:int = 0): 
print 
('Bar 2:', s, n) 


# Example: overloaded __init__ 
import time 


class Date 


(metaclass=MultipleMeta): 
def 


__init__(self, year: int, month:int, day:int): 
self.year = year 
self.month = month 
self.day = day 


def 
__ init__(self): 


t = time.localtime() 
self.__init__(t.tm_year, t.tm_mon, t.tm_mday) 


下 面 的 交互 式 会 话 可 验证 我 们 的 代码 是 合 能 按 
预期 工作 : 


>>> s = Spam() 

>>> s.bar(2, 3) 

Bar 1: 2 3 

>>> s.bar('hello') 

Bar 2: hello 0 

>>> s.bar('hello', 5) 

Bar 2: hello 5 

>>> s.bar(2, 'hello') 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "multiple.py", line 42, in _ call _ 

raise TypeError 


('No matching method for types {}'.format(types) ) 
TypeError: No matching method for types (<class ‘int'>, <class ' 


>>> # Overloaded _ init __ 


d = Date(2012, 12, 21) 
# Get today's date 


>>> e = Date() 
>>> e.year 
2012 

>>> e.month 

12 

>>> e.day 





9.20.3 ”讨论 


老实 说 ， 本 节 中 出 现 了 大 量 的 “魔法 ? 才 使 得 这 
个 方案 能 适用 于 现实 环境 中 的 代码 。 但 是 ， 这 个 方 
生 深 入 挖掘 了 元 类 和 插 述 符 的 内 部 工作 原理 ， 并 强 
MSP A Hees. ALC, mtn) Bee Be hy 
用 本 节 中 的 方案 ， 但 其 中 的 一 些 思想 可 能 会 影响 到 
er. FID FF AM BR OVE PPT E AI hd PE 


相对 来 说 ， 上 述 实现 中 的 主要 思想 是 比较 简单 
的 。 元 类 MnutipleMeta 使 用 _prepare__(0) 方 法 来 提供 
一 个 定制 化 的 类 字典 ， 将 其 作为 MultiDict 的 一 个 类 
实例 。 与 普通 的 字典 不 同 ， 当 设 定 字 典 中 的 条 目 
时 ，MultiDict 会 检查 条 目 是 否 已 经 存在 。 如 果 已 经 
存在 ， 则 重复 的 条 目 会 被 合并 到 MultiMethod 的 一 
个 类 实例 中 去 。 


MultiMethod 的 闫 实例 会 通过 构建 一 个 从 类 型 
釜 名 到 函数 的 映射 天 系 来 将 方法 收集 到 一 起 。 在 构 
建 的 时 候 ， 我 们 通过 函数 注解 来 收集 这 些 签名 并 构 
建 出 映射 关系。 这 些 都 是 在 MultiMethod.register() 方 
法 中 完成 的 。 关 于 这 个 映射 ， 一 个 至 关 重 要 的 地 方 
在 于 为 了 实现 多 方法 重 载 ， 因 此 必须 给 所 有 的 参数 
都 指定 类 型 ， 否 则 就 会 出 错 。 


























为 了 让 MultiMethod 的 类 实例 能 够 表现 为 一 个 

可 调用 对 象 ， 我 们 实现 了 __call_ 0 方法 。 该 方法 通 
过 所 有 的 参数 (除了 self 之 外 ) 构建 出 一 个 类 型 元 
组 ， 然 后 在 内 部 的 映射 关系 中 找到 对 应 的 方法 并 调 
HE. KM ge (0) 方 法 是 为 了 让 MultiMethod 的 类 
实例 能 够 在 类 定义 中 正常 工作 。 在 我 们 给 出 的 实现 
get_() 方 法 被 用 来 创建 合适 的 绑 定 方法 。 示 
列 如 下 : 








>>> b = s.bar 

>>> b 

<bound method Spam.bar of <__main__.Spam object at 0x1006a46d0>> 
>>> b.__self__ 

<__main__.Spam object at 0x1006a46d0> 

>>> b._ func__ 


>>> b('hello') 
Bar 2: hello 0 
>>> 








诚然 ， 本 市 中 虽然 涉及 多 项 编程 拉 术 ， 但 不 到 
的 是 我 们 还 需要 考虑 一 下 其 中 存在 的 局 限 性 。 第 
一 ， 这 个 解决 方案 中 不 能 使 用 关键 字 参 数 。 示 例如 
Te 

















>>> s.bar(x=2, y=3) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: _ call () got an unexpected keyword argument 'y' 


>>> s.bar(s='hello' ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: __call__() got an unexpected keyword argument 's' 
>>> 
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持 ， 但 这 就 需要 一 种 完全 不 同 的 方法 来 实现 方法 映 
射 了 。 问 题 的 根源 在 于 关键 字 参 数 不 是 以 菏 种 特定 
顺序 出 现 的 。 当 和 位 置 参数 混在 一 起 时 ， 我 们 很 快 
会 得 到 一 堆 杂乱 排列 的 参数 ， 迫 使 我 们 不 得 不 在 
cal 0 方法 中 以 条 种 方式 进行 整理 。 


本 节 给 出 的 方 末 对 于 继承 的 文 持 也 非常 有 限 。 
例如 ， 下 面 的 代码 是 无 法 工作 的 : 





class A 


pass 


class C 


pass 


class Spam 


(metaclass=MultipleMeta): 
def 


foo(self, x:A): 
print 


('Foo 1:', x) 


def 


foo(self, x:C): 
print 


('Foo 2:', x) 





失败 的 原因 在 于 注解 x:A 无 法 匹配 到 子 类 的 实 
例 上 《比如 B 的 实例 ) 。 示 例如 下 : 





>>> S = Spam() 

>>> a = A() 

>>> s.foo(a) 

Foo 1: <__main__.A object at 0x1006a5310> 
>>> c = C() 


>>> s.foo(c) 
Foo 2: <__main__.C object at 0x1007a1910> 
>>> b = B() 
>>> s.foo(b) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "multiple.py", line 44, in _ call _ 
raise TypeError 


('No matching method for types {}'.format(types) ) 
TypeError: No matching method for types (<class '__main__.B'>, ) 
>>> 





除了 使 用 元 类 和 函数 注解 之 外 ， 还 可 以 通过 疱 
饰 如 来 实现 类 似 的 功能 。 示 例如 下 : 





import types 


class multimethod 


def 


__init__(self, func): 


self. methods = {} 
self..__name__ = func.__name__ 
self. default = func 


def 


match(self, *types): 


def 


register(func): 
ndefaults = len(func.__defaults__) if 


func. defaults. else 


for 


range(ndefaults+1): 
self. _methods[types[:len(types) - n]] = func 
return 


self 
return 


register 


def 


_Ccall (self, *args): 
types = tuple(type(arg) for 


arg in 

args[1:]) 
meth = self._methods.get(types, None) 
if 

meth: 


return 


meth(*args) 
else 


return 


self. _default(*args) 


def 


__get__(self, instance, cls): 
if 


instance is not 


None: 
return 


types.MethodType(self, instance) 
else 


return 


self 





THEHR ia WAS, FY DEAS TA: 


class Spam 


@multimethod 
def 


bar(self, *args): 
# Default method called if no match 


raise TypeError 


('No matching method for bar') 
@bar.match(int, int) 


def 


bar(self, x, y): 
print 


('Bar 1:', x, y) 
@bar.match(str, int) 


def 


bar(self, s, n = 0): 
print 


('Bar 2:', s, n) 





采用 装饰 莫 的 解决 方案 和 前 面 的 实现 方案 有 痢 








相同 的 局 限 性 〈 即 ， 不 支持 关键 字 参 数 ， 对 继承 的 


文 持 个 佳 ) 。 


如 果 不 出 什么 意外 ， 最 好 还 是 不 要 在 通用 的 代 
人 码 中 使 用 多 分 派 。 在 一 些 特殊 情况 下 这 或 许 会 是 有 
意义 的 ， 比 如 菏 个 程序 需要 根据 荣 种 形式 的 模式 匹 
配 来 分 派 不 同 的 方法 。 例 如 ， 在 8.21 节 中 摘 述 过 的 
访问 者 模式 也 许可 以 改写 到 一 个 类 中 ， 通 过 条 种 方 
式 来 使 用 多 方法 分 派 。 但 是 除 此 之 外 ， 选 择 更 加 人 简 
单 的 方案 通 第 部 绝 不 会 是 个 坏 主意 (不 同 的 方法 使 
用 不 同 的 名 称 即 可 ) 。 


考虑 通过 不 同 的 方式 来 实现 多 分 派 的 思想 已 经 
在 Python 用 户 社区 中 存在 多 年 了 。 对 于 这 个 主题 的 
讨论 ， 请 参见 Python 之 父 Guido van Rossum 发 表 的 
一 篇 博文 “Five-Minute Multimethods in 
Python” (http:/www.artima.com/weblogs/viewpost.jsr 
thread=101605 ) 。 




















9.21 避免 出 现 重 复 的 属性 方法 
9.21.1 问题 
我 们 正在 编写 一 个 类 ， 而 我 们 不 得 不 重复 定义 


一 些 执 行 了 相同 任务 的 属性 方法 ， 比 如 说 做 类 型 检 
但 。 我 们 想 人 简化 代码 ， 解 决 代码 重复 的 问题 。 








9.21.2 ”解决 方案 


考虑 下 面 这 个 简单 的 类 ， 这 里 的 属性 都 用 
property 方 法 进行 了 包装 : 





class Person 


def 


__init__(self, name ,age): 
self.name = name 
self.age = age 


@property 


def 


name(self): 
return 


self. name 
@name.setter 


def 


name(self, value): 
if not 


isinstance(value, str): 
raise TypeError 


('name must be a string') 
self. name = value 
@property 
def 


age(self): 
return 
self._age 
@age.setter 


def 


age(self, value): 
if not 


isinstance(value, int): 
raise TypeError 


('age must be an int') 
self._age = value 





可 以 看 到 ， 我 们 编写 的 很 多 代码 仅仅 只 是 强制 
对 属性 值 做 类 型 断言 。 每 当 看 到 目 己 的 代码 变 成 这 
个 样子 时 ， 应 该 考 夸 通过 各 种 不 同 的 方法 来 简化 代 
码 。 一 种 可 能 的 方式 束 古 创建 一 个 函数 ， 让 它 为 我 
们 定义 这 个 属性 并 返回 给 我 们 。 示 例如 下 : 














def 


typed_property(name, expected_type): 
storage_name = '_' + name 


@property 
def 


prop(self): 
return 


getattr(self, storage_name) 
@prop.setter 


def 


prop(self, value): 
if not 


isinstance(value, expected_type): 
raise TypeError 


('{} must be a {}'.format(name, expected_type) ) 
setattr(self, storage_name, value) 
return 


prop 


# Example use 


class Person 


name = typed_property('name', str) 
age = typed_property('age', int) 
def 


__init__(self, name, age): 
self.name = name 
self.age = age 





9.21.3 Wir 


本 节 说 明了 内 层 函 数 或 者 闭 包 的 一 个 重要 特性 
一 一 即 ， 用 它们 编写 出 的 代码 工作 起 来 很 像 宏 。 示 
例 中 的 函数 typed_propertyO 可 能 看 起 来 有 点 怪 ， 但 
它 实 际 上 只 是 在 为 我 们 生成 属性 代码 ， 并 返回 产生 
的 属性 对 象 。 因 此 ， 妆 在 类 中 使 用 它 时 就 好 像 把 出 
现在 typed_property0 中 的 代码 放置 到 了 类 定义 中 一 
样 。 尽 管 getter 和 setter 属 性 方法 访问 的 是 局 部 变 
量 ， 比 如 name、expected_type 和 storage_name， 这 


也 没 问题 一 一 那些 值 都 保存 在 财 包 中 了 。 
如 果 使 用 疯 数 functools.partial()， 还 可 以 让 本 市 




















中 的 示例 变 得 更 加 有 趣 。 例 如 ， 可 以 这 么 做 : 


from functools import 


partial 


String = partial(typed_property, expected_type=str ) 
Integer = partial(typed_property, expected_type=int ) 
# Example: 


class Person 


name = String('name' ) 
age = Integer('age' ) 
def 


__init__(self, name, age): 
self.name = name 
self.age = age 





这 份 代码 看 起 来 环 很 像 我 们 在 8.13 市 中 展示 的 
一 些 类 型 系统 插 述 从 的 代码 了 。 


9.22 ”以 徐 单 的 方式 定义 上 下 文 管 
JE ZS 


9.22.1 问题 


我 们 想 实 现 新 形式 的 上 下 文 管理 右 ， 然 后 在 
with 语句 中 使 用 。 


9.22.2 ”解决 方案 


编写 一 个 新 的 上 下 文 管理 器 ， 其 中 最 直接 的 一 
种 方式 就 是 使 用 contextlib 模 块 中 的 
@contextmanager 装 饰 器 。 在 下 面 的 示例 中 ， 我 们 
用 上 下 文 管理 器 来 计时 代码 块 的 执行 时 间 : 











import time 


from contextlib import 
contextmanager 
@contextmanager 


def 


timethis(label): 


start = time.time() 
try 


yield 


finally 


end = time.time() 
print 


('{}: {}'.format(label, end - start)) 


# Example use 


with 


timethis('counting'): 
n = 10000000 
while 





在 timethisO 函 数 中 ， 所 有 位 于 yield 之 前 的 代码 
会 作为 上 下 文 管理 器 的 _enter_0 〇 方法 来 执行 。 而 
所 有 位 于 yield 之 后 的 代码 会 作为 、 exit OFFA 
行 。 如 果 有 异常 产生 ， 则 会 在 yield 语 句 中 抛 出 。 


下 面 是 一 个 更 加 高 级 的 上 下 文 管理 磺 ， 其 中 实 
现 了 对 列表 对 象 的 处 理 : 


@contextmanager 


def list_transaction(orig list): 


working = list(orig list) 


yield working 


orig_list[:] = working 








X BLOF Et E R A SE PS ERAT 
束 且 没有 产生 任何 异常 时 ， 此 时 对 列表 做 出 的 修改 
才 会 真正 生效 。 下 面 用 一 个 例子 来 说 明 : 





>>> items = [1, 2, 3] 


>>> with list_transaction(items) as working: 


working.append(4) 


working.append(5) 


>>> items 


[1, 2, 3, 4, 5] 


>>> with list_transaction(items) as working: 


working.append(6) 


working.append(7) 


raise RuntimeError('oops' ) 


Traceback (most recent call last): 


File "<stdin>", line 4, in <module> 


RuntimeError: oops 


>>> items 


[1, 2, 3, 4, 5] 


>>> 





9.22.3 Wir 


一 般 来 次 ， 要 编写 一 个 上 下 文 管理 右 ， 需 要 定 


义 一 个 市 有 __enter _0 和 _ exit_ 0 方法 的 类 ， 束 像 
下 和 面 这 样 : 





import time 


class timethis: 


def _init (self, label): 


self.label = label 


def _ enter_ (self): 


self.start = time.time() 


def exit (self, exc_ty, exc_val, exc tb): 


end = time.time() 


print('{}: {}'.format(self.label, end - self.start)) 


| 
虽然 这 么 做 也 并 非 很 难 ， 但 是 比 起 直接 使 用 


@contextmanager 还 是 要 演 珊 许多 。 


@contextmanager 只 适用 于 编写 上 自给 上 自足 型 
(self-contained) 的 上 下 文 管理 器 函数 。 如 条 有 一 
些 对 象 〈《 比 如 文件 、 网 络 连接 或 者 锁 ) 需要 文 持 在 
with 语句 中 使 用 ， 那 么 还 是 需要 分 别 实现 

”enter (站 和 exit ODÈ. 











9.23 ”执行 市 有 局 部 副作用 的 代码 


9.23.1 问题 





我 们 正在 使 用 exec0O 在 调用 方 的 作用 域 下 执行 
一 段 代码 ， 但 是 当 执 行 结束 后 ， 得 到 的 结 末 似 乎 在 
当前 作用 域 下 是 不 可 见 的 。 


9.23.2 ”解决 方案 
为 了 更 好 地 理解 这 个 问题 ， 我 们 做 一 个 小 小 的 


实验 。 首 先 ， 我 们 在 全 局 命名 空间 下 执行 一 段 代 
码 : 








>>> a = 13 


>>> exec('b = a+ 1') 


>>> print(b) 





现在 ， 让 我 们 在 一 个 函数 内 部 再 次 做 同样 的 实 





>>> def test(): 


a=13 


exec('b = a + 1') 


print(b) 


>>> test() 


Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 


File "<stdin>", line 4, in test 


NameError: global name 'b' is not defined 





WAS, BIE Y NameError ts, Wey 





像 exec0 语 句 从 未 实际 执行 过 一 样 。 如 条 打算 将 
exec(O 的 执行 结 朱 用 在 稍 后 的 计算 中 ， 那 么 这 了 就 成 


J 问题 。 


要 解决 这 类 问题 ， 需 要 使 用 locals0 函 数 在 调用 
exec() 之 前 获取 一 个 保存 了 局 部 变量 的 字典 。 紧 接 
看 ， 束 可 以 从 本 地 字典 中 提取 出 修改 过 的 值 。 示 例 
如 下 : 


>>> def 


test(): 


loc = locals() 
exec 
('b=a+ 1') 


b = loc['b'] 
print 


(b) 





9.23.3 ”讨论 
在 实践 中 要 正确 使 用 exec0 其 实 是 非常 具有 技 








巧 性 的 。 事 实 上 ， 在 大 多 数 考 虑 使 用 exec() 的 情况 
中 ， 可 能 存在 大 更 加 优雅 的 解决 方 采 例如 装饰 





ary HIG. JURA) 。 


但 是 如 果 仍 然 必 须 使 用 exec()， 本 市 列 出 了 一 
些 正 确 使 用 它 的 原则 。 默 认 情 况 下 ，execO 是 在 调 
用 方 的 局 部 和 全 局 作用 域 中 执行 代码 的 。 然 而 在 函 
数 内 部 ， 传 递 给 execO 的 局 部 作用 域 是 一 个 字典 ， 











而 这 个 字典 是 实际 局 部 变量 的 一 份 找 贝 。 因 此 ， 如 
果 在 exec0 中 执行 的 代码 对 局 部 变量 做 出 了 任何 修 
改 ， 这 个 修改 绝 不 会 反映 到 实际 的 局 部 变量 中 去 。 
下 面 我 们 用 为 一 个 例子 来 尖 示 这 个 效果 : 





print 


(x) 


>>> testi() 
0 


>>> 








正如 解决 方案 中 展示 的 那样 ， 当 调用 locals(0) 来 
获取 局 部 变量 时 ， 传 递 给 exec() 的 是 局 部 变量 的 找 
贝 。 而 在 exec() 执 行 完 毕 之 后 ， 通 过 检查 字典 中 的 
值 ， 就 能 获取 到 修改 过 的 变量 值 。 下 面 的 实验 可 验 
证 这 一 点 : 





loc = locals() 


print 


('before:', loc) 


exec 


('x += 1') 


print 


('after:', loc) 


print 


>>> test2() 
before: {'x': 0} 
after: {'loc': {...}, 'x': 1} 





仔细 观察 最 后 一 步 的 输出 。 除 非 从 loc 中 将 修改 
过 的 值 写 回 x， 人 否则 变量 x 会 保持 不 变 。 


每 当 使 用 localsO 时 都 需要 小 心 操作 的 顺序 问 
题 。 每 次 调用 它 时 ，locals0 将 会 接受 局 部 变量 的 当 
前 值 ， 然 后 覆盖 字典 中 的 对 应 条 目 。 观 察 下 面 这 个 
实验 的 结果 : 








>>> def 


test3(): 


loc = locals() 
print 
(loc) 
exec 
('x += 1') 
print 
(loc) 
locals() 
print 


(loc) 


>>> test3() 
{'x': 0} 





注意 最 后 对 locals0) 的 调用 是 如 何 导 人 有致 x 被 禾 芒 


的 。 





除了 使 用 locals0 之 外 ， 另 一 种 可 选 的 方式 是 自 
己 创 建 字 典 并 传递 给 execO0。 示 例如 下 : 





glb = { } 


exec 


('b =a + 1', glb, loc) 


b = loc['b'] 


print 


(b) 


>>> test4() 
14 


>>> 





HTAA exec IMA, XH RENE 





郁 的 实践 方式 了 了。 我们 需要 确保 exec() 中 访问 的 变 
量 在 全 局 和 局 部 字典 中 经 过 恰当 的 初始 化 。 

















最 后 但 同样 重要 的 是 ， 在 使 用 execO 之 前 ， 应 
该 问 问 目 己 是 售 还 有 其 他 可 选 的 方案 。 许 多 可 能 会 
考虑 使 用 execO 的 问题 都 可 以 用 财 包 、 姿 饰 句 、 元 
类 或 者 其 他 元 编程 的 特性 来 将 代 。 


9.24 解析 并 分 机 Python 源 人 代码 


9.24.1 问题 





我 们 想 编写 程序 来 解析 Python 源 代码 并 对 此 进 
行 一 些 分 析 工 作 。 


9.24.2 ”解决 方案 


大 部 分 程序 员 都 知道 Python 可 以 执行 以 字符 串 
形式 提供 的 源 代 码 。 示 例如 下 : 





>>> x = 42 
>>> eval('2 + 3*4 + x') 





但 是 ， 我 们 可 以 使 用 ast 模 块 将 Python 源 代 码 编 
译 为 一 个 抽象 语法 树 CAST) ， 这 样 就 可 以 分 析 源 
代码 了 。 示 例如 下 : 


>>> Import ast 


>>> ex = ast.parse('2 + 3*4 + x', mode='eval' ) 

>>> ex 

<_ast.Expression object at 0x1007473d0> 

>>> ast.dump(ex) 
"Expression(body=BinOp(left=BinOp(left=Num(n=2), op=Add(), 
right=BinOp(left=Num(n=3), op=Mult(), right=Num(n=4))), op=Add() 
right=Name(id='x', ctx=Load())))" 


>>> top = ast.parse('for i in range(10): print(i)', mode='exec' ) 


>>> top 

<_ast.Module object at 0x100747390> 

>>> ast.dump(top) 

"Module(body=[For(target=Name(id='i', ctx=Store()), 
iter=Call(func=Name(id='range', ctx=Load()), args=[Num(n=10) ], 
keywords=[], starargs=None, kwargs=None), 

body=[Expr (value=Call(func=Name(id='print', ctx=Load()), 
args=[Name(id='1i', ctx=Load())], keywords=[], starargs=None, 
kwargs=None))], orelse=[])])" 

>>> 











对 语法 树 的 分 析 需 要 读者 上 自己 做 一 些 研究 ， 但 
总 的 来 说 ， 语 法 树 是 由 一 些 AST 节 点 组 成 的 。 同 这 
些 生 点 打交道 的 最 简单 的 方式 就 是 定义 一 个 访问 者 
类 ， 在 类 中 实现 各 种 visit_NodeName() 方 法 ， 这 里 
的 NodeName 可 以 匹配 到 所 感 兴趣 的 节点 上 来 。 下 
面 的 示例 给 出 了 这 样 一 个 类 ， 它 可 以 记录 那些 被 加 














载 、 你 存 和 删除 过 的 名 称 信息 。 


import ast 


class CodeAnalyzer(ast.NodeVisitor): 
def _ init__(self): 
self.loaded = set() 
self.stored = set() 
self.deleted = set() 
def visit_Name(self, node): 
if isinstance(node.ctx, ast.Load): 
self .loaded.add(node.id) 
elif isinstance(node.ctx, ast.Store): 
self.stored.add(node.id) 
elif isinstance(node.ctx, ast.Del): 
self.deleted.add(node.id) 


# Sample usage 
if _ name__ == '__main_': 
# Some Python code 
code = ''' 
for i in range(10): 
print(i) 
del i 
# Parse into an AST 
top = ast.parse(code, mode='exec' ) 


# Feed the AST to analyze name usage 
c = CodeAnalyzer() 

c.visit(top) 

print('Loaded:', c.loaded) 
print('Stored:', c.stored) 
print('Deleted:', c.deleted) 





如 条 运行 这 个 程序 ， 会 得 到 如 下 的 输出 : 





Loaded: {'i', 'range', 'print'} 
Stored: {'i'} 


Deleted: {'i'} 


Bia, AST HAA) MK compile() A BUH tT a 
译 并 执行 。 示 例如 下 : 





>>> exec(compile(top, '<stdin>', 'exec')) 


00 


(e) 


9.24.3 ”讨论 


由 于 可 以 分 析 源 代码 并 从 中 得 到 有 用 的 信息 ， 
这 一 事实 可 以 让 我 们 开始 编写 各 种 各 样 的 代码 分 
析 、 代 码 优化 或 者 验证 工具 。 例 如 ， 与 其 盲目 地 将 
一 些 代 码 放 段 传递 给 exec() 这 样 的 函数 ， 不 如 先 将 
代码 转换 为 一 株 AST 树 ， 然 后 检查 其 中 的 一 些 细节 
来 看 看 代码 要 完成 哪些 任务 。 也 可 以 编写 工具 来 检 
但 模块 的 整 份 源码 ， 并 在 此 之 上 进行 一 些 静 态 分 
析 。 


应 该 要 提 到 的 是 ， 如 果 确 实 知道 自己 要 做 什 
么 ， 那 么 也 可 以 重 写 AST 来 表示 新 的 源码 。 下 面 给 
出 了 一 个 装饰 器 的 示例 ， 可 以 降低 函数 体 中 可 被 全 
局 访问 的 名 称 的 数量 。 这 是 通过 重新 解析 函数 体 的 
源码 并 重 写 AST， 然 后 再 重新 创建 水 数 的 源码 对 象 











来 实现 的 。 





# namelower ,py 
import ast 
import inspect 


# Node visitor that lowers globally accessed names into 
# the function body as local variables. 
Class NameLower(ast.NodeVisitor ): 
def _ init__(self, lowered_names): 
self.lowered_names = lowered_names 


def visit_FunctionDef(self, node): 
# Compile some assignments to lower the constants 
code = '_ globals = globals()\n' 
code += '\n'.join("{0} = __globals['{0}']".format (name) 
for name in self.lowered_names) 
code_ast = ast.parse(code, mode='exec' ) 


# Inject new statements into the function body 
node.body[:0] = code_ast.body 


# Save the function object 
self.func = node 


# Decorator that turns global names into locals 
def lower_names(*namelist): 
def lower(func): 

srclines = inspect.getsource(func).splitlines() 

# Skip source lines prior to the @lower_names decorator 

for n, line in enumerate(srclines): 

if '@lower_names' in line: 
break 


src = '\n'.join(srclines[n+1: ] ) 

# Hack to deal with indented code 

if src.startswith((' ', '\t')): 
src = ‘if 1:\n' + src 

top = ast.parse(src, mode='exec' ) 


# Transform the AST 
cl = NameLower(namelist) 
cl.visit(top) 


# Execute the modified AST 
temp = {} 
exec(compile(top,'','exec'), temp, temp) 


# Pull out the modified code object 
func. code = _temp[func.__name__].__ code 
return func 

return lower 








要 使 用 上 述 代 码 ， 可 以 编写 如 下 形式 的 代码 : 


INCR = 1 


@lower_names('INCR' ) 
def countdown(n): 
while n > 0: 
n -= INCR 





这 样 ， 我 们 的 装饰 器 束 会 将 函数 countdown0 〇 的 
源码 改写 为 如 下 的 形式 : 


def countdown(n): 
__globals = globals() 
INCR = __globals['INCR' ] 
while n > 0: 


n -= INCR 





在 性 能 测试 中 ， 这 使 得 该 函数 的 运行 速度 快 了 
大 约 20%。 


现在 ， 是 否 应 该 将 这 个 装饰 器 作用 到 所 有 的 了 郴 
A EWE? as E 不 是 如 此 。 但 是 ， 这 个 例子 对 一 些 
非常 高 级 的 技术 做 了 很 好 的 说 明 。 我 们 可 以 通过 操 
纵 AST、 源 代码 以 及 其 他 一 些 技术 来 实现 这 些 高 级 
特性 。 


本 节 的 灵感 源 目 ActiveState 上 一 个 类 似 的 例子 
Chttp://code.activestate.com/recipes/277940- 
decorator-for-bindingconstants-at-compile-time/ ) , 
在 那个 例子 中 我 们 操纵 了 Python 的 字 节 码 。 用 AST 
来 实现 则 是 一 种 层次 更 高 的 方法 ， 可 能 会 更 直接 一 
些 。 有 大字 市 码 方面 的 更 多 内 容 可 参考 下 一 




















X 


9.25 Python k NTEN AAS 
9.25.1 问题 


我 们 想 将 Python 源 码 分 解 为 解释 占有 所 使 用 的 搬 
eps, UE SARS ER EAB ABT 





9.25.2 ”解决 方案 


序列 。 示 例如 下 : 


>>> def countdown(n): 
while n > 0: 
print('T-minus', n) 
n -= 1 
print('Blastoff!') 


>>> import dis 
>>> dis.dis(countdown) 
2 SETUP_LOOP 39 (to 42) 
>> LOAD_FAST 
6 LOAD_CONST 
9 COMPARE_OP 
12 POP_JUMP_IF_FALSE 


15 LOAD_GLOBAL © (print) 

18 LOAD_CONST 2 ('T-minus') 

21 LOAD_FAST 9 (n) 

24 CALL_FUNCTION 2 (2 positional, © keywor 
27 POP_TOP 


28 LOAD_FAST 0 (n) 





31 LOAD_CONST 3 (1) 
34 INPLACE_SUBTRACT 
35 STORE_FAST 9 (n) 
38 JUMP_ABSOLUTE 

>> 41 POP_BLOCK 


LOAD_GLOBAL © (print) 

LOAD_CONST 4 ('Blastoff!') 
CALL_FUNCTION 1 (1 positional, © keywor 
POP_TOP 9 (None) 


LOAD_CONST 
RETURN_VALUE 





9.25.3 wir 








UR is 2 EAE Fs JER JE AY EU BT Fee HÍT 
为 ， 那 么 dis 模 块 会 非常 有 帮助 例如， 如 果 打 算 了 
解 一 些 性 能 方面 的 特点 时 ) 。 


由 函数 dis0 所 翻译 出 的 原始 字 市 码 序 列 是 这 样 





>>> countdown. code .co_ code 
b"x'\x00|\xO0\xOO0d\xO1\xOOk\x04\xOOr)\xOOt \xO0\xOOd\x02\x00|\x00 
\x02\xO0\x01|\xO0\xO0d\x03\x008}\xO0\xO0q\xO03\xOOWt \x0O0\xOOd\x04 
\xO1\x00\x01d\x00\x00S" 





>>> 











如 果 想 自行 解释 这 上 段 代 码 ， 需 要 使 用 定义 在 
opcode 模 块 中 的 一 些 和 常量 。 示 例如 下 : 





>>> c = countdown. code .co code 
>>> import opcode 





>>> opcode.opname[c[0] ] 
>>> opcode.opname[c[0] ] 


"SETUP_LOOP ' 

>>> opcode.opname[c[3] ] 
"LOAD_FAST' 

>>> 





讽刺 的 是 ，dis 模 块 中 居然 没有 任何 函数 能 够 让 
我 们 以 可 编程 的 方式 来 轻松 处 理 这 些 字 节 人 码 。 下 面 
这 个 生成 锅 函 数 会 接受 原始 的 字 节 码 序 列 ， 并 将 其 
转换 为 对 应 的 操作 代码 和 参数 。 





import opcode 


def 


generate_opcodes(codebytes): 
extended_arg = 0 


i=0 
n = len(codebytes) 
while 
i<n 
op = codebytes[i] 
i += 1 


if 


op >= opcode .HAVE_ARGUMENT: 
oparg = codebytes[i] + codebytes[i+1]*256 + extended 
extended_arg = 0 
i += 2 
if 


op == opcode.EXTENDED_ARG: 
extended_arg = oparg * 65536 
continue 


else 


oparg = None 


yield 


(op, oparg) 





要 使 用 这 个 函数 ， 可 以 像 这 样 操作 : 


>>> for 





op, oparg in 


generate_opcodes(countdown. code .co_code): 





print 


(op, opcode.opname[op], oparg) 


120 SETUP_LOOP 39 

124 LOAD_FAST 0 

100 LOAD_CONST 1 

107 COMPARE_OP 4 

114 POP_JUMP_IF_FALSE 41 
116 LOAD_GLOBAL 0 

100 LOAD_CONST 2 

124 LOAD_FAST 0 

131 CALL_FUNCTION 2 

1 POP_TOP None 


56 INPLACE_SUBTRACT None 
125 STORE_FAST 0 

113 JUMP_ABSOLUTE 3 
87 POP_BLOCK None 
116 LOAD_GLOBAL 0 
100 LOAD_CONST 4 

131 CALL_FUNCTION 1 
1 POP_TOP None 

100 LOAD_CONST 0 

83 RETURN_VALUE None 
>>> 





下 面 介 绍 一 个 鲜 为 人 知 的 小 技巧 ， 我 们 可 以 将 
任何 函数 中 感 兴趣 的 原始 字 节 人 码 葵 换 反 。 这 需要 多 





做 一 些 工 作 才 能 实现 ， 下 面 给 出 的 示例 展示 了 其 中 
需要 涉及 的 技巧 : 


>>> def 


add(x, y): 


return 


>>> c = add.__code__ 

>>> C 

<code object add at 0x1007beed0, file "<stdin>", line 1> 
>>> c.co_code 

b' |\x0O\x00|\xO1\xOO\x17S' 

>>> 


>>> # Make a completely new code object with bogus byte code 
>>> import types 


>>> newbytecode = b'xxxxxxx' 
>>> nc = types.CodeType(c.co_argcount, c.co_kwonlyargcount, 


c.co_nlocals, c.co_stacksize, c.co_flags, newbytecode, c.co 
c.co_names, c.co_varnames, c.co_filename, c.co_name, 


c.co_firstlineno, c.co_lnotab) 
>>> nc 
<code object add at 0x10069fe40, file "<stdin>", line 1> 
>>> add.__code___ = nc 
>>> add(2,3) 
Segmentation fault 


o 
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程 工具 的 开发 者 来 说 ， 他 们 可 能 会 真 地 倾向 于 去 重 
新 改写 字 节 人 码 。 本 市 最 后 这 个 例子 展示 了 了 如何 去 
做 。 读 者 可 以 在 ActiveState 上 看 到 另 一 个 实际 应 用 
中 的 例子 

(http://code.activestate.com/recipes/277940- 
decorator-for-buildingconstants-at-cimpile- time ) 。 











第 10 章 ”模块 和 包 


模块 和 包 是 任何 大 型 项 目的 核心 ， 束 连 Python 
安装 程序 本 身 也 是 一 个 包 。 本 章 的 重点 涉及 有 关 模 
块 和 包 的 常见 编程 搁 术 ， 例 如 如 何 组 织 包 、 将 大 型 
的 模块 分 解 成 多 个 文件 以 及 创建 命名 空间 包 
(namespace package) 。 此 外 ， 本 章 也 提 到 了 关于 
目 定 义 import 语 句 行 为 的 操作 。 


10.1 把 模块 按 层次 结构 组 织 成 包 
10.1.1 问题 


我 们 想 把 代码 按照 一 定 的 层次 结构 组 织 成 包 。 





10.1.2 解决 方案 


创建 一 个 软件 包 结 构 是 很 简单 的 。 只 要 把 代码 
按照 所 希望 的 方式 在 文件 系统 上 进行 组 织 ， 并 确保 
每 个 日 录 中 都 定义 了 一 个 _init_.py 文件 即 可 。 例 
un: 





graphics/ 
__ init__.py 
primitive/ 
__ init__.py 
line.py 
fill.py 


text.py 
formats/ 

__ init__.py 

png.py 

jpg.py 





一 旦 完成 后 ， 束 可 以 执行 各 种 各 样 的 importi 语 
AT s FE 





import graphics.primitive.line 


from graphics.primitive import 


line 
import graphics.formats.jpg as jpg 





10.1.3 讨论 


定义 一 个 具有 层次 结构 的 模块 就 如 同 在 文件 系 
统 上 创建 目录 结构 一 样 简 单 。_init_.py 文件 的 目 
的 束 是 包含 可 选 的 初始 化 代码 ， 当 过 到 软件 包 中 不 
同 层 次 的 模块 时 会 触发 运行 。 比 如 ， 如 果 写 下 
import graphics 6J, 3¢{graphics/__init__.py 会 被 
导入 并 形成 graphics 命 名 空间 中 的 内 容 。 对 于 import 
graphics.formats.jpg 这 样 的 导入 语句 ， 文 件 
graphic/__ init__.py graphics/formats/_ init_ .py 
都 会 在 最 终 导 入 文件 graphics/formats/jpg.py 之 前 优 
先 得 到 导入 。 


在 大 部 分 情况 下 ， 把 _init_.py 文件 留 空 也 是 
可 以 的 。 但 是 ， 在 某 些 特 定 的 情况 下 __init_ .py X 
件 中 是 需要 包含 代码 的 。 例 如 ， 可 以 用 _ init_.py 




















文件 来 目 动 加 载 子 模块 ， 示 例如 下 : 


# graphics/formats/__init__.py 


from . import 
jpg 


from . import 


png 














有 了 这 样 一 个 文件 ， 用 户 只 需要 使 用 一 条 单独 
的 import graphics.formats 语 句 束 可 以 导入 jpg 和 png 
模块 了， 不 需要 再 去 分 别 叶 入 graphics.formats.jpg 利 
graphics.formats.png。 


其 他 关于 _ im 让 _.py 文件 的 第 见 用 法 包括 从 多 
个 文件 中 把 定义 统一 到 一 个 单独 的 逻辑 命名 空间 
中 ， 这 有 了 时候 会 在 分 解 模 块 时 用 到 。 我 们 在 10.4 市 
中 会 讨论 分 解 模块 的 问题 。 


一 些 精 明 的 程序 员 会 注意 到 在 Python 3.3 中 或 
算 不 存在 _init_.py 文件 似乎 也 可 以 执行 包 的 导入 
操作 。 如 果 不 定 义 _init_.py ， 那 么 实际 上 是 创建 
了 一 个 称 之 为 “命名 空间 包 ” (namespace package) 











的 东西 ， 我 们 会 在 10.5 节 讨论 这 个 主题 。 如 果 刚 开 
始 创 建 一 个 新 的 包 ， 那 么 做 法 都 是 一 样 的 ， 包 括 
init py 文件 也 是 一 样 。 


10.2 ”对 所 有 符号 的 导入 进行 精确 
控制 


10.2.1 问题 


当 用 户 使 用 from module import * 语 句 时 ， 我 们 
硕 望 对 从 模块 或 包 中 导入 的 符号 进行 精确 控制 。 


10.2.2 解决 方案 


在 模块 中 定义 一 个 变量 _all_， 用 来 显 式 列 出 
可 导出 的 符 写 名 。 示 例如 下 : 





# somemodule. py 


grok(): 
pass 


blah = 42 


# Only export 'spam' and 'grok' 


all = ['spam', 'grok'] 





10.2.3 ”讨论 


尽管 我 们 强烈 反对 使 用 from module import * 这 
样 的 导入 语句 ， 但 是 在 定义 了 大 量 符 亏 的 模块 中 还 
是 能 常 看 到 这 种 用 法 。 如 果 对 此 无 动 于 衷 的 话 ， 这 
种 形式 的 导入 会 把 所 有 不 以 下 划 线 开头 的 符号 名 全 
部 导出 。 换 句 话 说 ， 如 果 定 义 了 _ all _， 那 么 只 有 
显 式 列 出 的 符号 名 才 会 被 导出 。 


如 果 将 _all_ 定义 成 一 个 空 的 列表 ， 那 么 任何 
和 从 号 都 不 会 被 导出 。 如 果 all_ 中 包含 有 未 定义 的 
名 称 ， 那 么 在 执行 import 语 句 时 会 产生 一 个 
AttributeError 异 第 。 








10.3 ”用 相对 名 称 来 导入 包 中 的 子 
模块 


10.3.1 问题 


我 们 将 代码 组 织 成 了 一 个 包 ， 想 从 其 中 一 个 子 
模块 中 导入 为 一 个 子 模块 ， 但 是 叉 不 布 望 在 import 
语句 中 便 编 码 包 的 名 称 。 


10.3.2 解决 方案 


要 在 软件 包 的 子 模 块 中 导入 同一 个 包 中 其 他 的 
子 模块 ， 请 使 用 相对 名 称 来 导入 。 例 如 ， 假 设 有 一 
个 名 为 mypackage 的 包 ， 它 在 文件 系统 上 组 织 成 如 
下 的 形式 : 








mypackage/ 
__ init__.py 


__ init__.py 
spam. py 


grok.py 
B/ 


__ init__.py 
bar ,py 





如 果 模 块 mypackage.A. spam ps BTMEF 同一 
个 目录 中 的 模块 grok， 那 么 它 应 该 包含 一 条 这 样 的 


importi fj: 





# mypackage/A/spam. py 


from . import 


grok 





如 果 模 块 mypackage.A.spam 布 望 导 入 位 于 不 同 
目录 中 的 模块 B.bar， 可 以 使 用 下 面 的 import 语 句 来 
完成 : 


# mypackage/A/spam. py 


from ..B import 


bar 











上 面 这 两 条 import 语 句 都 是 相对 于 spam.py 文 件 
的 位 置 来 进行 操作 的 ， 而 且 其 中 没有 包含 最 顶层 包 


的 名 称 。 
10.3.3 ”讨论 


在 包 的 内 部 ， 要 在 其 中 一 个 子 模块 中 导入 同一 
个 包 中 其 他 的 子 柑 块 ， 既 可 以 通过 给 出 完整 的 绝对 
名 称 ， 也 可 以 通过 上 面 示 例 中 采用 的 相对 名 称 来 完 
成 导入 。 示 例如 下 : 











# mypackage/A/spam. py 


from mypackage.A import 


grok # OK 


from . import 


grok 


import grok 


# Error (not found) 





使 用 绝对 名 称 的 缺点 在 于 这 么 做 会 将 最 顶层 的 
包 名 称 便 编 码 到 源 代 码 中 ， 这 使 得 代码 更 加 脆弱 ， 
如 果 想 重新 组 织 一 下 结构 会 比较 困难 。 例 如 ， 如 果 
修改 了 包 的 名 称 ， 将 不 得 不 搜索 所 有 的 源 代码 文件 
并 修改 便 编码 的 名 称 。 类 似 地 ， 便 编码 名 称 使 得 其 
他 人 很 难 移动 这 部 分 代码 。 例 如 ， 也 许 有 人 想 安 装 
两 个 不 同 版 本 的 包 ， 只 通过 名 字 来 区 分 它们 。 如 果 
采用 相对 名 称 导 入 ， 那 么 不 会 有 任何 问题 ， 但 是 采 
用 绝对 名 称 导 入 则 会 使 程序 朋 尝 。 


import 语 句 中 的 .和 .. 语 法 可 能 看 起 来 比较 有 
趣 ， 把 它们 想象 成 指定 目录 名 即 可 。. 意 味 着 在 当前 
目录 中 查找 ， 而 ..B 表 示 在 ../B 目录 中 查找 。 这 种 语 
法 只 能 用 在 from xx import yy 这 样 的 导入 语句 中 。 
示例 如 下 : 




















from . import 


grok # OK 


# ERROR 





尽管 看 起 来 似乎 可 以 利用 相对 导入 来 访问 整个 
文件 系统 ， 但 实际 上 是 不 允许 跳出 定义 包 的 那个 目 
录 的 。 也 束 是 说 ， 利 用 句点 的 组 合 形式 进 入 一 个 不 
是 Python 包 的 目录 会 使 得 导入 出 现 错误 。 


最 后 ， 应 该 要 所 到 的 是 相对 导入 只 在 特定 的 条 
件 下 才 起 作用 ， 即 ， 模 块 必须 位 于 一 个 合适 的 包 中 
才 可 以 。 特 别 是 ， 位 于 脚本 顶层 目录 的 模块 不 能 使 
用 相对 导入 。 此 外 ， 如 果 包 的 杀 个 部 分 是 耳 接 以 脚 
a en ren ene 
入 。 例 如 : 


% python3 mypackage/A/spam.py # Relative imports fail 


尺 一 方面 ， 如 条 使 用 mm 选项 来 执行 上 面 的 脚 
本 ,那么 相对 导入 就 可 以 正常 工作 了 。 示 例如 下 : 


% python3 -m mypackage.A.spam # Relative imports work 


有 天 包 的 相对 导入 的 更 多 背景 知识 ， 请 参阅 
PEP 328 ([http://www.python.org/dev/peps/ pep- 
0328 ](http://www.python.org/dev/peps/ pep- 
0328)) 。 























10.4 ”将 模块 分 解 成 多 个 文件 
10.4.1 问题 


我 们 想 将 一 个 模块 分 解 成 多 个 文件 。 但 是 ， 我 
们 不 想 破 坏 现在 已 经 在 使 用 这 个 模块 的 代码 ， 而 是 
希望 可 以 将 多 个 单独 的 文件 在 逻辑 上 统一 成 一 个 单 
独 的 模块 。 





10.4.2 解决 方案 


可 以 通过 将 模块 转换 为 包 的 方式 将 模块 分 解 成 
多 个 单独 的 文件 。 考 虑 下 面 这 个 简单 的 模块 : 








# mymodule.py 


class A 


def 


spam(self): 
print 


('A.Spam' ) 


bar(self): 
print 


('B.bar') 





假设 想 将 mymodule.py 分 解 为 两 个 文件 ， 每 个 
文件 中 包含 一 个 类 的 定义 。 要 做 到 这 点 ， 可 以 从 把 
mymodule.py 蔡 换 成 目录 mymodule 开始 。 在 这 个 新 
的 目录 中 创建 如 下 的 文件 : 
mymodule/ 


__ init__.py 
a.py 





b.py 





在 文件 a.py 中 填 入 下 面 的 代码 : 


# a.py 


class A 


def 


spam(self): 
print 


('A.sSpam' ) 





而 在 文件 b.py 中 项 入 下 面 的 代码 : 


from .a import 


bar(self): 
print 


('B.bar') 





最 后 在 文件 _init_.py 中 将 这 两 个 文件 绑 定 在 


from .a import 


A 
from .b import 


B 





RIE EWR, BS HAEmypackage 4, 
在 馆 辑 上 束 成 为 了 一 个 单独 的 模块 : 


>>> import mymodule 
>>> a = mymodule.A() 


>>> a.Sspam() 
A. spam 


>>> b = mymodule.B() 





10.4.3 讨论 


本 市 主要 考虑 的 古 一 个 设计 上 的 问题 。 即 ， 我 
们 希望 用 户 使 用 大 量 的 小 型 模 世 ， 还 是 希望 他 们 只 
使 用 一 个 单独 的 模块 。 例 如 ， 在 一 个 庞大 的 代码 库 
中 ， 我 们 可 以 把 所 有 的 东西 都 分 解 成 单独 的 文件 ， 
并 让 用 户 写 下 大 量 的 import 语 句 ， 就 像 下 面 这 样 : 


from mymodule.a import 


from mymodule.b import 


B 





这 么 做 行 得 通 ， 但 是 也 给 用 户 帝 来 了 很 大 的 负 
担 ， 因 为 他 们 需要 知道 不 同 的 组 件 都 存放 在 哪个 文 
件 中 。 通 常 ， 更 加 人 简单 的 方式 是 将 事情 统一 起 来 ， 
只 用 一 条 单独 的 import 语 句 即 可 : 




















from mymodule import 


A, B 





对 于 这 后 一 种 情况 ， 通 常 可 以 把 mymodule 想 
象 成 一 个 大 型 的 源 文件 。 但 是 ， 本 节 为 大 家 演示 了 


如 何在 逻辑 上 把 多 个 文件 拼接 成 一 个 单独 的 命名 空 
间 的 技术 。 关 键 之 处 在 于 创建 一 个 包 目 录 ， 并 通过 
init py 文件 将 各 个 部 分 粘 合 在 一 起 ，。 


当 分 解 模块 时 ， 需 要 对 跨 文 件 名 的 引用 多 加 小 
心 。 例 如 ， 在 本 节 示 例 中 ，dlass B 需 要 把 class A% 
做 基 类 来 访问 。 我 们 采用 from .a import A 这 种 相对 
于 包 的 导入 方式 来 获取 class A 有 的 定义 。 


本 节 全 篇 都 在 使 用 相对 于 包 的 导入 方式 ， 避 免 
在 源 代码 中 硬 编码 顶层 模块 名 。 这 么 做 使 得 修改 模 
块 名 或 者 将 模块 代码 移动 到 别处 都 变 得 更 加 容易 了 

(参见 10.3 节 ) 。 


可 以 对 本 市 提 到 的 搁 术 进行 扩展 ，3 引 入 “ 情 
性 ”导入 的 概念 。 由 前 面 的 示例 可 知 ，__init_.py X 
件 一 次 性 将 所 有 需要 的 组 件 都 导入 进来 。 但 是 ， 对 
于 非常 庞大 的 模块 ， 也 许 只 希望 在 实际 需要 的 时 候 
才 加 载 那 些 组 件 。 为 了 实现 这 个 目的 ， 下 面 对 
init__.py 文件 做 了 些微 修改 : 
































# init__.py 


A(): 


from .a import 


return 


B(): 


from .b import 


return 


B() 





在 这 个 版 本 中 ，class A 和 class B 已 经 由 函数 取 
代 了 ， 当 首次 访问 它们 时 会 加 载 所 需 的 类 。 对 于 用 
户 来 说 这 不 会 有 太 大 差别 。 示 例如 下 : 


>>> import mymodule 


>>> a = mymodule.A() 


>>> a.spam() 
A.spam 
>>> 





惰性 加 载 的 主要 缺点 在 于 会 破坏 继承 和 类 型 检 
碍 机 制 。 例 如 ， 我 们 可 能 需要 稍微 修改 一 下 代码 : 


if 


isinstance(x, mymodule.A): # Error 


if 


isinstance(x, mymodule.a.A): 








有 关 情 性 加 载 在 真实 世界 中 的 应 用 ， 可 以 参考 
nite Ee A multiprocessing/__init__.py 中 的 源 代码 。 


10.5 ”让 各 个 目录 下 的 代码 在 统一 
的 命名 空间 下 导入 


10.5.1 问题 


我 们 有 一 个 庞大 的 代码 库 ， 其 中 有 很 多 部 分 可 
能 是 由 不 同 的 人 来 维护 和 发 布 的 。 每 个 部 分 都 组 织 
成 一 个 目录 ， 就 像 包 一 样 。 但 是 ， 与 其 把 每 个 部 分 
部 安 交 为 单独 命名 的 包 ， 我 们 更 想 把 所 有 的 部 分 联 
合 在 一 起 ， 用 一 个 统一 的 前 级 来 命名 。 











10.5.2 ”解决 方案 


基本 上 来 说 ， 这 里 的 问题 束 是 我 们 想 定义 一 个 
顶层 的 Python 包 ， 把 它 作 为 命名 空间 来 管理 大 量 单 
独 维护 的 子 模块 。 这 个 问题 沼 妾 会 在 大 型 的 应 用 程 
序 框架 中 出 现 ， 框 架 开 发 人 员 和 硕 望 豆 励 用 户 发 布 自 
己 的 插件 或 者 附加 的 包 。 


要 使 各 个 单独 的 目录 统一 在 一 个 公共 的 命名 空 
则 下 ， 可 以 把 代码 像 普 通 的 Python 包 那样 进行 组 
织 。 但 是 对 于 打算 合并 在 一 起 的 组 件 ， 这 些 目录 中 
init__.py 文件 则 需要 忽略 。 为 了 说 明 这 个 过 
程 ， 假 设 Python 代 码 位 于 两 个 不 同 的 目录 中 : 

















foo-package/ 
Spam/ 
blah.py 


bar-package/ 


spam/ 
grok.py 








在 这 两 个 目录 中 ，spam 用 来 作为 公共 的 命名 
空间 。 注 意 到 这 两 个 目录 中 都 没有 出 现 _init_ .py 
SF 

现在 如 果 将 foo-package#llbar-package 都 添加 
到 python 的 模块 查询 路 人 径 中 ， 然 后 尝试 做 一 些 导 入 
操作 ， 看 看 会 发 生 什么 : 


>>> import sys 





>>> sys.path.extend(['foo-package', 'bar-package']) 
>>> import spam.blah 


>>> import spam.grok 








将 会 注意 到 这 两 个 不 同 的 包 目 录 魔 法 般 地 合并 


在 了 一 起 ， 我 们 可 以 随意 导入 spam.blah 或 者 
spam.grok， 不 会 遇 到 任何 问题 。 


10.5.3 ”讨论 


这 里 的 工作 原理 用 到 了 一 种 称 之 为 “命名 空间 
包 ”(namespace package) 的 特性 。 基 本 上 来 说 ， 
命名 空间 包 是 一 种 特殊 的 包 ， 设计 这 种 特性 的 意图 
就 是 用 来 合并 不 同 目录 下 的 代码 ， 把 它们 放 在 统一 
的 命名 空间 之 下 进行 管理 ， 就 像 示 例 中 展示 的 那 
样 。 对 于 大 型 的 框架 而 言 ， 这 种 特性 是 很 有 帮助 
的 。 因 为 这 样 允 许 把 框架 的 茶 些 部 分 分 解 成 单独 安 
装 的 包 。 这 样 也 使 得 人 们 可 以 轻松 地 制作 第 三 方 插 
件 和 针对 框 染 的 其 他 扩展 。 


创建 命名 空间 包 的 关键 之 处 在 于 确保 在 统一 命 
名 空间 的 项 层 目 录 中 不 包含 _init_.py 文件 。 当 导 
入 包 的 时 候 ， 这 个 缺失 的 _init_.py 文件 会 导致 发 
生 一 些 有 趣 的 事情 。 解 释 器 并 不 会 因此 而 产生 一 个 
错误 ， 相 反 ， 解 释 器 开始 创建 一 个 列表 ， 把 所 有 恰 
好 包含 有 这 个 包 名 的 目录 都 守 括 在 内 。 此 时 就 创建 
出 了 一 个 特殊 的 命名 空间 包 模 块 ， 日 在 _path Æ 
量 中 会 保存 一 份 只 读 形 式 的 目录 列表 。 示 例如 下 : 


>>> import spam 


















































>>> spam. path _ 
_NamespacePath(['foo-package/spam', 'bar-package/spam' | ) 
>>> 











”path 变量 中 保存 的 目录 可 用 来 进一步 定位 


包 中 的 子 模块 〈 例 如 ， 当 导入 spam.grok 或 者 
spam.blah 时 ) 。 


命名 空间 包 的 一 个 重要 特性 惑 是 任何 人 都 可 以 


用 目 己 的 代码 来 扩展 命名 空间 中 的 内 容 。 例 如 ， 假 
设 在 目 己 的 目录 下 添加 了 代码 : 





my-package/ 
spam/ 
custom.py 


如 果 把 自己 的 代码 目录 和 其 他 的 包 一 起 添加 到 
sys.path 中 ， 那 么 就 可 以 无 颖 地 同 其 他 的 spam 包 合 
并 在 一 起 : 





>>> import spam.custom 


>>> import spam.grok 


>>> import spam.blah 














作为 一 种 调试 工具 ， 想 知道 菜 个 包 是 不 是 用 来 
当做 命名 空间 包 的 主要 方式 就 是 检查 它 的 _file 
属性 。 如 条 缺少 这 个 属性 ， 这 个 包 束 是 命名 空间 。 
这 也 可 以 从 包 对 象 的 字符 如 表示 中 看 出 来 ， 如 宋 是 
命名 空间 的 话 ， 其 中 会 有 “namespace” 的 字样 。 示 例 
如 下 : 











>>> spam. file _ 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
AttributeError: 'module' object has no attribute '_ file _' 
>>> spam 


<module 'spam' (namespace)> 
>>> 





有 天 命名 空间 包 的 更 多 信息 ， 可 以 在 PEP 
420 Chttp://www.python.org/dev/peps/pep-0420 ) 中 
找到 。 





10.6 ”重新 加 载 模块 
10.6.1 问题 


因为 对 模块 的 源 代码 做 了 修改 ， 我 们 想 重新 加 
载 一 个 已 经 加 载 过 了 的 模块 。 


10.6.2 解决 方案 


要 重新 加 载 一 个 之 前 已 加 载 过 的 模块 ， 可 以 使 
用 imp.reload() 来 实现 。 示 例如 下 : 


>>> import spam 


>>> import imp 


>>> imp.reload(spam) 
<module 'spam' from './spam.py'> 
>>> 





10.6.3 ”讨论 
在 开发 和 调试 阶段 ， 重 新 加 载 模 块 这 一 招 常常 








很 有 用 。 但 是 一 般 来 说 在 生产 环境 中 这 么 做 是 不 安 
全 的 ， 因 为 它 并 不 会 总 是 按照 期 望 的 方式 工作 。 


reload0 操 作 会 探 除 恒 其 撒 层 字典 C dict) 
的 内 容 ， 并 通过 重新 执行 模块 的 源 代 码 来 刷新 它 。 
模块 对 象 本 里 的 标识 并 不 会 改变 〈 即 ， 调 用 id0 的 
结果 ) 。 因 此 ， 这 个 操作 会 使 得 已 经 导入 到 程序 中 
的 模块 得 到 更 新 。 








但 是 ， 对 于 使 用 了 from module import name 这 
样 的 语句 导入 的 定义 ，reload0 是 不 会 去 更 新 的 。 为 
了 说 明 其 中 的 过 程 ， 考 虑 下 面 的 代码 : 








# spam.py 


现在 开局 一 个 新 的 交互 式 会 话 : 


>>> import spam 


>>> from spam import 





不 要 退出 Python， 现 在 去 编辑 spam.py 的 源 代 
人 码 ， 把 grok0) 函 数 修改 成 下 面 这 样 : 


def 


grok(): 
print 


('New grok') 





现在 返回 交互 式 会 话 执 行 reload0) 操 作 ， 并 做 以 


下 的 试验 : 


>>> import imp 


>>> imp.reload(spam) 

<module 'spam' from './spam.py'> 

>>> spam.bar() 

bar 

>>> grok() # Notice old output 


grok 
>>> spam.grok() # Notice new output 





在 这 个 例子 中 ， 将 会 发 现 有 两 个 版 本 的 grok() 
函数 都 被 加 载 进 来 了 。 一 般 来 说 这 不 会 是 我 们 期 望 
的 结果 ， 而 且 最 终 会 变 成 让 我 们 头疼 的 趾 梦 。 

基于 这 个 原因 ， 在 生产 环境 的 代码 中 应 该 要 避 


免 重 新 加 载 模块 。 但 是 在 调试 或 者 在 交互 式 会话 
中 ， 当 需要 答 试 一 些 新 想法 时 这 人 么 做 也 未 答 不 可 。 








10.7 让 目录 或 zip 文 件 成 为 可 运行 
的 脚本 
10.7.1 问题 

我 们 的 程序 已 经 从 一 个 简单 的 脚本 进化 为 一 个 


涉及 多 个 文件 的 应 用 。 我 们 希望 能 有 菏 种 简单 的 方 
法 让 用 户 来 运行 这 个 程序 。 





10.7.2 ”解决 方案 


如 果 应 用 程序 已 经 进化 为 由 多 个 文件 组 成 
的 “庞然大物 ”， 则 可 以 把 它们 放 在 专属 的 目录 中 ， 
并 为 之 添加 一 个 _main_ .py 文件 。 例 如， 可 以 创 
建 一 个 这 样 的 目录 











myapplication/ 








如 果 有 __main_.py ， 就 可 以 在 顶层 目录 中 运 
行 Python 解 释 器 ， 就 像 下 面 这 样 : 








bash % python3 myapplication 


解释 器 会 把 _main_.py 文件 作为 主 程序 来 执 
行 。 





这 项 技术 在 我 们 把 所 有 的 代码 打包 进 一 个 zip 文 
件 中 时 同样 有 效 。 示 例如 下 : 


bash % 1s 

Spam.py bar.py grok.py __main__.py 
bash % zip -r myapp.zip *.py 

bash % python3 myapp.zip 


.. output from _main__.py ... 





10.7.3 ”讨论 


创建 一 个 目录 或 zip 文 件 ， 并 在 其 中 添加 一 
个 _main_.py ， 这 是 一 种 打包 规模 较 大 的 Python 访 
用 程序 的 可 行 方法 。 但 这 和 安 疾 到 Python 标准 库 中 
的 包 有 所 不 同 ， 在 这 种 情况 下 ， 代 码 并 不 是 作为 标 
准 库 中 的 模块 来 使 用 的 。 相 反 ， 这 里 只 是 把 代码 打 
包 起 来 方便 给 其 他 人 执行 。 


由 于 目录 和 zip 文 件 同 普通 文件 相 比 有 一 些小 的 
区 别 ， 我 们 可 能 也 想 添 加 一 个 shell 脚 本 来 让 执行 步 
骤 变 得 更 加 简单 。 人 例如， 如果 代码 位 于 一 个 名 








为 myapp.zip 的 文件 中 ， 则 可 以 像 下面 这 样 创建 一 
个 顶层 的 脚本 : 


#!/usr/bin/env python3 /usr/local/bin/myapp.zip 





10.8 ” 谈 取 包 中 的 数据 文件 
10.8.1 问题 


我 们 的 代码 需要 读 取 包 中 的 一 个 数据 文件 ， 我 
们 要 尽 可 能 的 以 可 移植 的 方式 来 处 理 。 


10.8.2 ”解决 方案 
假设 包 是 按照 下 列 方式 组 织 的 : 





mypackage/ 
__init__.py 


somedata.dat 
spam. py 





现在 假设 文件 spam.py 要 读 取 somedata.dat 中 的 
内 容 。 要 做 到 这 点 ， 可 以 使 用 下 列 代 码 来 完成 : 





# Spam.py 


import pkgutil 


data = pkgutil.get_data(__package__, 'somedata.dat') 


得 到 的 结果 会 保存 在 变量 data 中 。 这 是 一 个 字 
节 昌 ， 其 中 包含 了 文件 的 原始 内 容 。 














10.8.3 ”讨论 


要 读 取 一 个 数据 文件 ， 我 们 可 能 会 倾 问 于 编写 
代码 利用 内 建 的 VO 函数 (比如 open()) 来 完成 。 但 
是 ， 这 种 方法 存在 几 个 问题 。 


首先 ， 对 于 一 个 包 来 说 ， 它 无 法 控制 解释 器 的 
当前 工作 目录 。 因 此 ， 任 何 IO 操 作 都 必须 使 用 文 
件 名 的 绝对 路 径 。 由 于 每 个 模块 都 在 _file_ 变 量 
中 保存 了 全 路 径 ， 所 以 要 获取 文件 的 位 置 并 非 不 可 
fe, (AES ERR 


FLL: 8 as ALS LAE. zip egg CF, E 
们 和 文件 系统 中 普通 的 目录 保存 文件 的 方式 不 同 。 
因此 如 果 答 试用 open0 打 开 包 含 在 归档 (archive) 
中 的 数据 文件 ， 这 根本 行 不 通 。 


pkgutil.get_data0 函 数 是 一 种 高 级 的 工具 ， 无 论 
包 以 什么 样 的 形式 安 效 或 安 妆 到 了 哪里 ， 都 能 够 用 
它 来 获取 数据 文件 。 它 能 够 完成 工作 并 把 文件 内 容 




















以 字 市 串 的 形式 返回 给 我 们 。 


get_data() 的 第 一 个 参数 是 包含 有 包 名 的 字符 
串 。 我 们 可 以 直接 提供 这 个 字符 串 ， 或 者 使 用 
_ package 这 个 特殊 变量 。 第 二 个 参数 是 要 获取 的 
文件 相对 于 包 的 名 称 。 如 果 有 必要 ， 可 以 使 用 标准 
的 UNIX 路 径 名 规则 进入 不 同 的 目录 中 ， 只 要 最 后 
的 目录 仍然 在 包 的 内 部 即 可 。 

















10.9 ”次 加 目录 到 sys.path 中 
10.9.1 问题 
我 们 有 一 些 Python 代 码 无 法 导入 ， 因 为 它们 不 


在 sys.path 列 出 的 目录 中 。 我 们 想 将 新 的 目录 添加 到 
Python 的 路 径 里 ， 但 又 不 想 将 其 便 编 码 到 代码 中 。 





10.9.2 解决 方案 


有 两 种 常见 的 方法 可 以 将 新 的 目录 添加 到 
sys.path 中 去 。 第 一 ， 可 以 通过 使 用 PYTHONPATH 
环境 变量 来 添加 。 示 例如 下 : 


bash % env PYTHONPATH=/some/dir:/other/dir python3 
Python 3.3.0 (default, Oct 4 2012, 10:17:33) 
[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin 
", "copyright", "credits" or "license" for more informé 





'', '/some/dir', '/other/dir', ...] 





在 一 个 用 户 程序 中 ， 这 个 环境 变量 可 以 在 程序 
司 动 时 或 者 通过 菏 种 形式 的 shell 脚 本 来 设 定 。 








第 二 种 方法 是 创建 一 个 .pth 文件 ， 然 后 像 下 面 
这 样 将 目录 列 出 来 : 


# myapplication.pth 
/some/dir 


/other/dir 





这 个 .pth 文件 需要 放 在 Python 的 其 中 一 个 site- 
packages 目录 中 ， 一 般 来 说 位 
于 /usr/local/lib/python3.3/site-packages 或 
者 ~/.locallib/python3.3/site-packages 。 在 解释 器 启 
动 的 时 候 ， 只 要 .pth 文件 中 列 出 的 目录 存在 于 文件 
系统 上 ， 那 么 它们 就 会 被 添加 a 到 sys.path 中 。 如 果 是 
要 添加 到 整个 系统 级 的 Python 解释 器 上 ， 那 么 安 
闭 .pth 文 件 可 能 需要 管理 员 权限 。 





10.9.3 ”讨论 





如 果 在 确定 文件 的 位 置 时 过 到 了 麻烦 ， 可 能 会 
倾 回 于 编写 代码 来 手动 调整 sys.path 的 值 。 示 例如 
T: 





import sys 


sys.path.insert(0, '/some/dir') 
sys.path.insert(0, '/other/dir') 


pO 


FRIAS TE”, {APES HP 1 PP BE A PE 
脆弱 ， 应 该 尽 可 能 避免 这 种 做 法 。 这 种 方法 的 部 分 
问题 在 于 将 目录 名 称 便 编 码 到 了 源码 中 。 如 果 要 将 
代码 转移 到 一 个 新 的 位 置 时 ， 这 就 会 产生 维护 方面 
的 问题 了 。 通 第 更 好 的 方法 是 在 其 他 的 地 方 对 路 径 
做 配置 ， 不 用 去 直接 编辑 代码 。 


有 时 候 ， 如 果 利 用 模块 级 的 变量 比如 _ file 
来 精心 构建 一 个 合适 的 绝对 路 径 ， 也 能 够 规避 硬 编 
码 目录 所 带 来 的 问题 。 示 例如 下 : 














import sys 


from os.path import 


abspath, join, dirname 
sys.path.insert(0, abspath(dirname('_ file__'), 'src')) 





上 面 的 代码 将 src 目 录 添 加 到 了 sys.path 中 ， 而 
且 src 目 录 和 执行 插入 操作 的 代码 所 在 的 目录 是 相同 
的 。 











目录 site-packages 通 第 是 第 三 方 模 块 和 包 安 装 





的 位 置 。 如 果 代 码 也 按照 这 种 方式 安装 ， 那 么 这 就 
是 它们 所 处 的 位 置 。 尽 管用 来 配置 路 径 的 .pt 文件 
必须 出 现在 site-packages 中 ， 但 其 中 记录 的 路 径 可 
以 指 问 系统 中 任何 希望 的 目录 。 因 此 ， 可 以 选择 让 
代码 保存 在 一 个 完全 不 同 的 目录 中 ， 只 要 这 些 目 录 
都 包含 在 .pth 文件 中 即 可 。 














10.10 ”使 用 字符 串 中 给 定 的 名 称 来 
导入 模块 
10.10.1 问题 

我 们 已 经 有 了 需要 导入 的 模块 名 称 ， 但 是 这 个 
名 称 保存 在 一 个 字符 串 中 。 我 们 想 在 字符 串 上 执行 


import 命 令 。 








10.10.2 解决 方案 


当 模 块 或 包 的 名 称 以 字符 串 的 形式 给 出 时 ， 可 
以 使 用 importlib.imnport_moduleO 函 数 来 手动 导入 这 
个 模块 。 示 例如 下 : 





>>> import importlib 


>>> math = importlib.import_module('math' ) 
>>> math.sin(2) 


0.9092974268256817 

>>> mod = importlib.import_module('urllib.request' ) 
>>> u = mod.urlopen( 'http://www.python.org' ) 

>>> 





import_ module 基 本 上 和 import 完 成 的 步骤 相 
同 ， 但 是 import_module 会 把 模块 对 象 作为 结果 返回 
给 你 。 我 们 只 需要 将 它 你 存在 一 个 变量 里 ， 之 后 把 
它 当 做 普通 的 模块 使 用 即 可 。 

如 果 要 同 包 打交道 ，import_module() 也 可 以 用 


来 实现 相对 导入 。 但 是 ， 需 要 提供 一 个 额外 的 参 
数 。 示 例如 下 : 








import importlib 


# Same as 'from . import b' 


b = importlib.import_module('.b', __package__) 





10.10.33 wit 





采用 import_module0 手 动 导 入 模块 的 需求 最 党 
出 现在 当 编 写 代 人 码 以 菜 种 方式 来 操作 或 包装 模块 
时 。 例 如 ， 也 许 正在 实现 一 个 自 定 义 的 导入 机 制 ， 
需要 通过 模块 的 名 称 来 完成 加 载 并 给 加 载 进 来 的 代 
人 码 打上 补丁 。 

















在 较 老 的 代码 中 ， 有 时 候 会 看 到 用 内 建 的 
impot 0 函数 来 实现 导入 。 尽 管 这 样 也 行 得 
通 ， 但 importlib.import_ moduleO 通 常 要 更 容易 使 用 
EE | 














请 参见 10.11 节 中 有 头目 定义 导入 过 程 的 高 级 示 
例 。 


10.11 利用 import 钧 子 从 远 端 机 器 
上 加 载 模块 


10.11.1 问题 


我 们 想 对 Python 的 import 语 句 做 定制 化 处 理 ， 
实现 以 透明 的 方式 从 远 端 机 器 上 加 载 模块 。 


10.11.2 解决 方案 


首先 我 们 要 对 安全 性 方面 的 问题 做 严肃 的 免责 
声明 。 本 节 讨 论 的 思路 和 技术 如 果 缺 少 某 种 额外 的 
安全 和 认证 机 制 的 保护 将 变 得 非常 糟 米 。 也 就 是 
说 ， 本 节 的 主要 目标 实际 上 是 对 Python 中 import 语 
句 的 内 部 工作 原理 做 了 深入 的 探讨 。 如 果 能 消化 本 
节 的 内 容 并 理解 内 部 的 工作 原理 ， 那 么 将 为 此 打下 
坚实 的 基础 。 今 后 面 对 定 制 化 import 的 操作 ， 无 论 
是 出 于 什么 目的 ， 我 们 都 能 应 对 上 自如。 好 了 ， 让 我 
们 继续 吧 。 


本 节 的 核心 目标 是 扩展 import 语 句 的 功能 。 有 
好 几 种 方法 可 以 实现 这 个 目标 ， 但 是 为 了 说 明 起 
见 ， 我 们 先 把 Python 代码 按照 下 列 方式 进行 组 织 : 











testcode/ 
spam. py 
fib .py 
grok/ 


__ init__.py 
blah. py 





这 些 文件 的 内 容 无 关 紧 要 ， 但 是 可 以 在 每 个 文 
件 中 放 一 些 简单 的 语句 和 函数 ， 这 样 我 们 可 以 进行 
测试 ， 当 它们 被 导入 时 可 以 看 到 输出 的 结果 。 例 
如 : 








# Spam.py 


print 


("I'm spam" ) 


def 


hello(name): 
print 


('Hello %s' % name) 


# fib. py 


print 


("I'm fib") 


def 
fib(n): 
if 
n < 2 
return 
1 
else 
return 


fib(n-1) + fib(n-2) 


# grok/__init__.py 


print 


("I'm grok.__init__") 


# grok/blah.py 


print 


("I'm grok.blah") 








这 么 做 的 目的 是 允许 这 些 文件 能 够 以 模块 的 形 
式 从 远 六 访问。 也 许 最 简 里 的 方式 束 是 在 Web 服 
务 器 上 来 发 布 这 些 模块 。 只 需要 进入 testcode H 
录 ， 然 后 像 下 面 这 样 运行 Python 即 可 : 








bash % cd testcode 
bash % python3 -m http.server 15000 
Serving HTTP on 0.0.0.0 port 15000 ... 





让 服务 占 一 直 运 行 ， 然 后 启动 一 个 新 的 Python 
解释 器 进程 。 确 保 可 以 通过 urllib 来 访问 这 些 远程 
文件 。 示 例如 下 : 


>>> from urllib.request import 


urlopen 

>>> u = urlopen('http://localhost:15000/fib.py' ) 
>>> data = u.read().decode('utf-8' ) 

>>> print 


(data) 
# fib.py 


print("I'm fib") 


def fib(n): 
if n < 2: 
return 1 
else: 
return fib(n-1) + fib(n-2) 











从 服务 器 中 加 载 源 代码 ， 这 一 思想 将 是 本 章 余 
下 内 容 的 基础 。 具 体 来 说 束 是 ， 与 其 通过 urlopen0 
国 数 手动 从 服务 器 上 把 源 代 人 码 抓 取 下 来 ， 不 如 目 定 
义 import 语 句 的 行为 ， 使 其 能 够 在 幕后 以 透明 的 方 
式 实现 同样 的 目的 。 


第 一 种 用 来 加 载 远 程 模 块 的 方法 束 是 创建 一 个 
显 式 的 加 载 函 数 。 示 例如 下 : 




















import imp 


import urllib.request 


import sys 


def 


load_module(url): 
u = urllib.request.urlopen(url) 
source = u.read().decode( 'utf-8' ) 
mod = sys.modules.setdefault(url, imp.new_module(ur1) ) 
code = compile(source, url, ‘exec') 


mod. file = url 
mod. package = '' 
exec 


(code, mod.__dict__) 
return 


这 个 函数 只 是 用 来 下 载 源 代码 的 ， 利 用 
compile() 函 数 将 其 编译 为 code 对 象 ， 然 后 在 新 创建 
We 下 面 古 使 用 这 个 子 数 
: Tri : 


>>> fib = load_module('http://localhost:15000/fib.py' ) 
I'm fib 





>>> fib.fib(10) 

89 

>>> spam = load_module('http://localhost:15000/spam.py' ) 
I'm spam 

>>> spam.hello( 'Guido' ) 


Hello Guido 

>>> fib 

<module 'http://localhost:15000/fib.py' from 'http://localhost:1} 
>>> spam 

<module 'http://localhost:15000/spam.py' from 'http://localhost: 
>>> 





可 以 看 到 ， 对 于 简单 的 模块 这 么 做 是 可 行 的 。 
但 是 ， 这 个 功能 并 没有 骨 入 到 常用 的 import 语 句 
中 。 而 且 如 果 要 支持 更 加 高 级 的 组 件 ， 比 如 包 ， 束 
需要 扩展 代码 ， 这 都 需要 做 更 多 的 工作 才能 实现 。 


更 加 高 级 的 方法 是 创建 一 个 目 定 义 的 导入 费 
(importer) 。 实 现 这 个 目的 的 第 一 种 方法 是 创建 
一 个 称 之 为 元 路 径 导 入 吉 (meta path importer) 的 




















组 件 。 示 例如 下 : 





# urlimport.py 


import sys 


import importlib.abc 


import imp 


from urllib.request import 


urlopen 
from urllib.error import 


HTTPError, URLError 
from html.parser import 


HTMLParser 


# Debugging 


import logging 


log = logging.getLogger(__name__) 


# Get links from a given URL 


def 


_get_links(url): 
class LinkParser 


(HTMLParser): 
def 


handle_starttag(self, tag, attrs): 
if 


tag == 'a': 
attrs = dict(attrs) 
links.add(attrs.get('href').rstrip('/')) 
links = set() 
try 


log.debug('Getting links from %s' % url) 

u = urlopen(ur1) 

parser = LinkParser() 

parser.feed(u.read().decode('utf-8')) 
except Exception as 


e: 
log.debug('Could not get links. %s', e) 
log.debug('links: %r', links) 
return 
links 


class UrlMetaFinder 


(importlib.abc.MetaPathFinder ): 
def 


__ init__(self, baseurl): 
self. _baseurl = baseurl 
self._links = { } 
self._loaders = { baseurl : UrlModuleLoader(baseurl) } 


def 
find_module(self, fullname, path=None): 


log.debug('find_module: fullname=%r, path=%r', fullname, 
if 


path is 


None: 
baseurl = self. _baseurl 
else 


if not 


path[0].startswith(self._baseurl): 
return 


None 
baseurl = path[0] 
parts = fullname.split('.') 
basename = parts[-1] 


log.debug('find_module: baseurl=%r, basename=%r', baseur 


# Check link cache 


if 


basename not in 


self. links: 
self. _links[baseurl] = _get_links(baseur1) 


# Check if it's a package 


if 


basename in 


self._links[baseurl]: 
log.debug('find_module: trying package %r', fullname 
fullurl = self._baseurl + '/' + basename 
# Attempt to load the package (which accesses __init 


loader = UrlPackageLoader(fullurl) 
try 


loader . load_module( fullname) 

self. _links[fullurl] = _get_links(fullurl) 

self. _loaders[fullurl] = UrlModuleLoader (fullurl 

log.debug('find_module: package %r loaded', full 
except ImportError as 


log.debug('find_module: package failed. %s', e) 
loader = None 
return 


loader 


# A normal module 


filename = basename + '.py' 


if 


filename in 


self. _links[baseurl]: 
log.debug('find_module: module %r found', fullname) 
return 


self._loaders[baseur1l] 
else 


log.debug('find_module: module %r not found', fullna 
return 
None 
def 
invalidate_caches(self): 
log.debug('invalidating link cache ) 


self._links.clear() 


# Module Loader for a URL 


class UrlModuleLoader 


(importlib.abc.SourceLoader ): 
def 


__init__(self, baseurl): 
self. _baseurl = baseurl 
self. _source_cache = {} 
def 
module_repr(self, module): 
return 


‘<urlmodule %r from %r>' % (module.__name__, module. file ) 


# Required method 


def 


load_module(self, fullname): 
code = self.get_code(fullname) 
mod = sys.modules.setdefault(fullname, imp.new_module(fu 


mod. file = self.get_filename( fullname) 
mod. __loader__ = self 

mod.__package__ = fullname.rpartition('.')[0] 
exec 


(code, mod.__dict__) 
return 


mod 


# Optional extensions 


def 


get_code(self, fullname): 
src = self.get_source(fullname ) 
return 


compile(src, self.get_filename(fullname), 'exec') 


def 


get_data(self, path): 


pass 


def 


get_filename(self, fullname): 
return 


self. _baseurl + '/' + fullname.split('.')[-1] + '.py' 


def 
get_source(self, fullname): 
filename = self.get_filename( fullname) 


log.debug('loader: reading %r', filename) 
if 


filename in 


self. _source_cache: 
log.debug('loader: cached %r', filename) 
return 


self. _source_cache[filename ] 
try 


u = urlopen( filename ) 


source = u.read().decode('utf-8' ) 
log.debug('loader: %r loaded', filename) 
self. _source_cache[filename] = source 
return 


source 
except 


(HTTPError, URLError) as 


log.debug('loader: %r failed. %s', filename, e) 
raise ImportError 
("Can't load %s" % filename) 
def 
is_package(self, fullname): 
return 


False 


# Package loader for a URL 


class UrlPackageLoader 


(UrlModuleLoader ): 
def 


load_module(self, fullname): 
mod = super().load_module( fullname ) 
mod.__path__ = [ self._baseurl | 
mod. __package__ = fullname 


def 


get_filename(self, fullname): 
return 
self. _baseurl + '/' + ' __init__.py' 
def 
is_package(self, fullname): 
return 


True 


# Utility functions for installing/uninstalling the loader 


_installed_meta_cache = { } 
def 


install_meta(address): 
if 


address not in 


_installed_meta_cache: 
finder = UrlMetaFinder (address) 
_installed_meta_cache[address] = finder 
sys.meta_path.append(finder ) 
log.debug('%r installed on sys.meta_path', finder) 


def 


remove_meta(address): 
if 


address in 


_installed_meta_cache: 
finder = _installed_meta_cache.pop(address) 
sys.meta_path.remove(finder ) 
log.debug('%r removed from sys.meta_path', finder) 





下 面 的 交互 式 会 话 展 示 了 应 该 如 何 使 用 上 述 代 





>>> # importing currently fails 


>>> import fib 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ImportError: No module named 'fib' 


>>> # Load the importer and retry (it works) 


>>> import urlimport 


>>> urlimport.install_meta('http://localhost:15000' ) 
>>> import fib 


I'm fib 
>>> import spam 


I'm spam 
>>> import grok.blah 


I'm grok.__init__ 

I'm grok.blah 

>>> grok.blah. file _ 
"http://localhost:15000/grok/blah.py' 
>>> 





在 这 个 特定 的 解决 方案 中 ， 我 们 把 一 个 特殊 的 


查询 对 象 一 一 UrlIMetaFinder 的 实例 安装 到 
sys.meta_path 的 最 后 一 个 条 目 中 。 每 当 要 导入 模块 
时 就 会 在 sys.meta_path 中 得 找 对 应 的 查询 对 象 ， 以 
此 来 寻找 模块 。 在 这 个 示例 中 ， 如 果 在 所 有 正常 的 
位 置 上 都 找 不 到 所 需 的 模块 ， 此 时 UrlMetaFinder 实 
an MIRIM BL, SAR E RAT ERT i AY 
HIR, 


作为 一 般 的 实现 方法 ，UrlMetaFinder 类 对 用 户 
指定 的 URL 进 行 包装 。 在 内 部 ， 查 询 右 会 通过 给 定 
的 URL 构 建 一 组 合法 的 链接 。 当 出 现 导入 的 动作 
时 ， 用 模块 名 来 同 已 知 的 链接 进行 对 比 。 如 果 有 匹 
配 ， 此 时 丈 用 UrlModuleLoader 类 来 从 远 端 机 器 上 加 
载 模块 的 源 代 码 并 创建 出 最 终 的 模块 对 象 作为 结 
条 。 绥 存 链接 的 一 个 原因 是 为 了 避免 对 重复 的 导入 
做 不 必要 的 HTTP 请 求 。 























目 定义 导入 功能 的 第 二 种 方式 是 编写 一 个 钩子 
Chook) ， 和 直接 将 其 插入 到 sys.path 变 量 中 ， 用 来 识 
别 特定 的 目录 命 名 模式 ，。 下 面 我 们 给 urlimport.py X 
件 添加 以 下 的 类 和 支持 函数 : 











# urlimport.py 


# ... include previous code above ... 


# Path finder class for a URL 


class UrlPathFinder 


(importlib.abc.PathEntryFinder ): 
def 


__ init__(self, baseurl): 
self._links = None 
self. loader = UrlModuleLoader (baseur1) 
self. _baseurl = baseurl 


def 


find_loader(self, fullname): 
log.debug('find_loader: %r', fullname) 
parts = fullname.split('.') 
basename = parts[-1] 
# Check link cache 


if 


self. links 


None: 


is 


self. links = [] # See discussion 


self._links = _get_links(self._baseurl) 


# Check if it's a package 


if 


basename in 


self. links: 


log.debug('find_loader: trying package %r', fullname 
fullurl = self._baseurl + '/' + basename 
# Attempt to load the package (which accesses __init 


loader = UrlPackageLoader (fullurl) 
try 


loader . load_module( fullname ) 
log.debug('find_loader: package %r loaded', full 
except ImportError as 


log.debug('find_loader: %r is a namespace packag 
loader = None 


return 


(loader, [fullurl]) 


# A normal module 


filename = basename + '.py 
if 


filename in 


self. links: 
log.debug('find_loader: module %r found', fullname) 
return 


(self._loader, []) 
else 


log.debug('find_loader: module %r not found', fullna 
return 
(None, []) 
def 
invalidate_caches(self): 
log.debug('invalidating link cache ) 


self. _links = None 


# Check path to see if it looks like a URL 


url_path_cache = {} 
def 





handle_url(path): 
if 


path.startswith(('http://', ‘https://')): 
log.debug('Handle path? %s. [Yes]', path) 
if 


path in 


url_path_cache: 
finder = _url_path_cache[path] 
else 








finder = UrlPathFinder (path) 
url_path_cache[path] = finder 
return 





finder 
else 


log.debug('Handle path? %s. [No]', path) 
def 
install_path_hook(): 
sys.path_hooks.append(handle_ur1l) 
sys.path_importer_cache.clear() 
log.debug('Installing handle_url1') 
def 


remove_path_hook(): 
sys.path_hooks.remove(handle_ur1l) 


sys.path_importer_cache.clear() 
log.debug('Removing handle_ur1l') 





要 使 用 这 个 基于 路 径 的 查询 器 ， 只 需要 将 URL 
添加 到 sys.path 中 。 例 如 : 





>>> # Initial import fails 


>>> import fib 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ImportError: No module named 'fib' 


>>> # Install the path hook 


>>> import urlimport 


>>> urlimport.install_path_hook() 


>>> # Imports still fail (not on path) 


>>> import fib 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ImportError: No module named 'fib' 


>>> # Add an entry to sys.path and watch it work 


>>> import sys 


>>> sys.path.append('http://localhost:15000' ) 
>>> import fib 


I'm fib 
>>> import grok.blah 


I'm grok.__init__ 

I'm grok.blah 

>>> grok.blah._ file _ 
"http://localhost:15000/grok/blah.py' 
>>> 





最 后 这 个 例子 的 关键 在 于 handle_url0 函 数 ， 我 
们 将 它 添 加 到 了 sys.path_hooks 中 。 当 开始 处 理 
sys.path 中 的 条 目 时 ， 位 于 sys.path_hooks 中 的 函数 
残 被 调用 。 如 采 这 些 函 数 中 有 任何 一 个 返回 了 一 个 
查询 对 象 〈finder object) ， 束 用 这 个 查询 对 象 来 尝 
试 为 sys.path 中 的 条 目 加 载 模 块 。 


应 该 要 指出 的 是 ， 从 远 端 导 入 的 模块 使 用 起 来 
和 其 他 的 模块 一 样 。 示 例如 下 : 


>>> fib 


<urlmodule 'fib' from 


‘http 


://localhost 


:15000/fib. py 


'> 

>>> fib. name _ 

'fib' 

>>> fib. file _ 
"http://localhost:15000/fib.py' 
>>> import inspect 


>>> print 


(inspect.getsource(fib) ) 
# fib.py 


print 


("I'm fib") 


def 


return 


else 


return 


fib(n-1) + fib(n-2) 
>>> 





10.11.3 讨论 








在 继续 深入 讨论 本 市 中 提 到 的 技术 之 前 ， 应 该 

要 强调 的 是 Python 的 模块 、 包 和 导入 机 制 是 整个 语 
言 中 最 为 复杂 的 部 分 之 一 一 一 就 算是 最 有 经 验 的 
Python 程序 员 对 这 部 分 的 理解 往往 也 不 尽 人 意 ， 除 
非 他 们 愿意 竭尽 所 能 去 挖掘 底层 的 原理 。 有 几 份 重 
要 的 文档 值得 去 阅读 ， 包 括 importlib 模 块 的 文档 

Chttp://docs.python.org/3/library/importlib.html ) 以 
及 PEP 302 Chttp://www.python. 
0302 ) 。 本 书 不 会 重复 文档 中 的 内 容 ， 但 会 讨论 
中 的 一 些 要 后 。 


首先 ， 如 果 想 创建 一 个 新 的 模块 对 象 (module 
object) ， 可 以 使 用 imp.new_module0 函 数 。 示 例如 
下 : 


Ca 























>>> m = imp.new_module('spam' ) 
>>> m 

<module 'spam'> 

>>> m.__name__ 

"spam' 

>>> 





模块 对 象 通 单 会 有 几 个 意料 之 中 的 属性 ， 包 括 
file _〔 所 加 载 模 块 的 源 文件 名 〉 和 
__package_ 〔 包 的 名 称 ， 如 果 有 有 的话 ) 。 


其 次 ， 模 块 会 被 解释 器 做 缓存 处 理 。 模 块 缓存 
可 以 在 字典 sys.modules 中 找到 。 由 于 存在 绥 存 处 
理 ， 通 常 我 们 就 把 缓存 和 模块 的 创建 联合 成 一 个 单 
独 的 步骤 来 做 。 示 例如 下 : 


>>> import sys 


>>> import imp 


>>> m = sys.modules.setdefault('spam', imp.new_module('spam' ) ) 
>>> m 

<module 'spam'> 

>>> 








这 么 做 的 主要 原因 是 如 果 某 个 给 定名 称 的 模块 
己 经 存在 的 话 ， 就 会 直接 得 到 已 经 创建 好 的 模块 
了 了。 示例 如 下 : 


>>> Import math 


>>> m = sys.modules.setdefault('math', imp.new_module('math' ) ) 
>>> m 
<module 'math' from '/usr/local/lib/python3.3/1lib-dynload/math. sr 


>>> m.sin(2 
0.9092974268256817 
>>> m.cos(2 
-0.4161468365471424 
>>> 





由 于 创建 模块 是 很 简单 的 ， 所 以 可 以 直接 编写 
简单 的 函数 来 处 理 ， 残 像 本 节 第 一 部 分 中 的 
load_moduleO 函 数 那样 。 这 种 方法 的 缺点 是 对 于 更 
加 复杂 的 情况 ， 处 理会 变 得 相当 环 手 ， 例 如 导入 包 
的 时 候 。 为 了 能 够 处 理 包 ， 将 不 得 不 重新 实现 大 部 
分 的 底层 逻辑 ， 而 这 些 东 西 已 经 是 普通 的 import 语 
ASEH SAN CPG, MAAS. ATK init__.py 
文件 、 执 行 这 些 文件 、 建 立 起 路 径 等 ) 。 


由 于 这 种 复杂 性 ， 因 此 通常 更 好 的 选择 是 直接 
扩展 import 语 句 的 功能 ， 而 不 十 去 定义 目 己 的 处 理 
疯 数 ， 这 正 是 为 何 要 这 么 做 的 原因 之 一 。 




















扩展 import 语 句 是 简单 而 直接 的 ， 但 是 其 中 涉 
及 多 个 部 件 。 从 最 高 层级 来 看 ，import 操 作 要 处 理 
一 系列 “元 路 径 ” 丛 询 器 ， 这 些 奏 询 器 可 以 在 
sys.meta_path 中 找到 。 如 果 输 出 它 的 值 ， 可 以 看 到 
如 下 的 输出 : 


>>> from pprint import 


pprint 
>>> pprint(sys.meta_path) 
[<class '_frozen_importlib.BuiltinImporter'>, 


<class '_frozen_importlib.FrozenImporter'>, 
<class '_frozen_importlib.PathFinder '>] 
>>> 





当 执 行 一 条 语句 比如 import fibh, fee AS Sake 
历 sys.meta_path 中 的 查询 器 对 象 ， 并 调用 它们 的 
find_module0) 方 法 以 此 来 找到 合适 的 模块 加 载 右 。 
用 实验 的 方式 来 观察 这 一 过 程 会 对 我 们 的 理解 有 上 所 
， 因 此 我 们 这 里 定义 如 下 的 类 并 尝试 做 以 下 的 





>>> class Finder 


find_module(self, fullname, path): 


print 


('Looking for', fullname, path) 
return 
None 
>>> import sys 
>>> sys.meta_path.insert(0, Finder()) # Insert as first entry 
>>> import math 


Looking for math None 
>>> import types 


Looking for types None 
>>> import threading 


Looking for threading None 
Looking for time None 
Looking for traceback None 


Looking for linecache None 
Looking for tokenize None 
Looking for token None 

>>> 





注意 在 每 个 import 操 作 中 find_module() 方 法 是 
如 何 被 触发 执行 的 。 在 这 个 方法 中 ， 参 数 path 的 作 
用 是 用 来 处 理 包 的 。 当 叶 入 的 是 包 时 ， 参 数 path 表 
示 的 是 包 的 _path_ 属性 中 列 出 的 目录 列表 。 需 要 
检查 这 些 路 径 来 找 出 包 中 的 子 模块 。 例 如 ， Le 


xml.etree 和 Xml.etree.ElementTree 的 路 径 设 定 : 








>>> import xml.etree.ElementTree 


Looking xml None 

Looking xml.etree ['/usr/local/lib/python3.3/xm1' ] 

Looking xml.etree.ElementTree ['/usr/local/lib/python3.3/xml 
Looking warnings None 

Looking contextlib None 


Looking xml.etree.ElementPath ['/usr/local/lib/python3.3/xml 
Looking _elementtree None 

Looking copy None 

Looking org None 

Looking pyexpat None 

Looking ElementC14N None 

>>> 





得 询 堪 对 象 在 sys.meta_path 中 的 位 置 是 至 关 重 
要 的 。 做 个 试验 ， 将 查询 器 对 象 从 列表 头 移 动 到 列 
表 尾 部 ， 然 后 尝试 做 几 个 导入 操作 : 








del 


.meta_path[0] 
sys.meta_path.append(Finder() ) 
import urllib.request 


import datetime 





现在 看 不 到 任何 输出 了 ， 因 为 现在 的 导入 操作 
被 sys.meta_path 中 的 其 他 条 目 处 理 了 。 在 这 种 情况 
下 ， 只 有 在 导入 并 不 存在 的 模块 时 才 会 触 友 我 们 目 
定义 的 但 询 器 : 


>>> import fib 


Looking for fib None 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 

ImportError: No module named 'fib' 

>>> import xml.superfast 


Looking for xml.superfast ['/usr/local/lib/python3.3/xm1' ] 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ImportError: No module named 'xml.superfast' 
>>> 








我 们 可 以 安装 一 个 查询 器 以 捕获 未 知 的 模块 ， 
这 一 事实 正 是 本 节 中 给 出 的 UnIMetaFinder 类 的 核心 
所 在 。 在 sys.meta_path 的 尾部 添加 一 个 
UrlMetaFinder 实 例 ， 把 它 当 做 导入 操作 的 最 后 一 道 
保险。 如 果 请 求 的 模块 名 无 法 被 其 他 导入 机 制 所 定 
位 ， 那 么 就 由 这 个 查询 器 来 负责 处 理 。 当 人 处理 包 的 
导入 时 还 需要 注意 一 些 事项 。 具 体 来 说 束 是 ， 对 于 
path 参 数 的 值 ， 我 们 需要 检查 看 它 古 人 否 以 我 们 注册 
到 查询 器 中 的 URL 开 头 。 如 果 不 是 ， 那 么 子 模 块 肯 
定 属于 其 他 查询 占 负 员 处 理 的 范畴 ， 这 里 就 应 该 忽 
略 。 























对 于 包 的 附加 处 理 可 以 在 UrlPackageLoader 关 
中 找到 。 这 个 类 不 是 去 导入 包 的 名 称 ， 而 是 尝试 加 
AUR JENN init__.py 文件 ， 最 后 它 还 会 设 定 模块 的 
_path_ 属性 。 最 后 这 一 步 是 非 第 关键 的 ， 因 为 当 
加 载 包 的 子 模块 时 ， 这 个 设 定 的 值 会 传递 给 接 下 来 
的 find_ moduleO 调 用 。 


基于 路 径 的 import 钧 子 是 对 这 些 思 想 的 一 种 困 - 
展 ， 只 是 其 中 的 机 制 有 所 不 同 。 如 你 所 知 ，sys.path 
是 一 个 路 径 列 表 ， 其 中 保存 的 是 Python 查 询 模 块 的 
路 径 。 例 如 : 


>>> from pprint import 
pprint 








>>> import sys 


>>> pprint(sys.path) 
['', 


'/usr/local/lib/python33.zip', 
'/usr/local/lib/python3.3', 
'/usr/local/lib/python3.3/plat-darwin', 
'/usr/local/lib/python3.3/lib-dynload', 
'/usr/local/lib/...3.3/site-packages'] 


>>> 








sys.path 中 的 每 一 个 条 目 都 会 同一 个 查询 需 对 象 
关联 起 来 。 我 们 可 以 通过 打印 
sys.path_importer_cache 来 查看 这 些 查 询 器 : 








>>> pprint(sys.path_importer_cache) 


{'.': FileFinder('.'), 
'/usr/local/1lib/python3. 
'/usr/local/1lib/python3. 
'/usr/local/1lib/python3. 
'/usr/local/1lib/python3. 
'/usr/local/1lib/python3. 


'/usr/local/1lib/python3. 
'/usr/local/1lib/python3. 
'/usr/local/lib/python33.zip': None} 
>>> 


3': FileFinder('/usr/local/lib/python3. 
3/': FileFinder('/usr/local/1lib/python3 
3/collections': FileFinder('...python3. 
3/encodings': FileFinder('...python3.3/¢ 
3/lib-dynload': FileFinder('...pythons3. 
3/plat-darwin': FileFinder('...pythons3. 
3/site-packages': FileFinder('...python 





sys.path_importer_cacheltsys.path#2 KH Z , 
为 前 者 会 针对 所 有 已 知 代码 将 被 加 载 的 目录 记录 下 
相应 的 得 询 器 。 这 包括 了 包 中 的 子 目 录 ， 而 这 些 信 
IG i ze WL CE sys.path FA). 











当 执 行 import fib 时 ，sys.path 中 的 目录 会 按 顺 
序 逐 个 接受 检查 。 对 于 每 个 目录 ， 名 称 fib 会 家 传递 
给 sys.path_importer_cache 中 与 目录 相关 联 的 查询 
器 。 我 们 也 可 以 创建 和 目 己 的 得 询 器 ， 并 将 其 添加 到 
sys.path_importer_cache 中 。 比 如 下 面 这 个 实验 : 














>>> class Finder 


def 


find_loader(self, name): 


print 


('Looking for', name) 
return 

(None, []) 

>>> import sys 


>>> # Add a "debug" entry to the importer cache 


>>> sys.path_importer_cache['debug'] = Finder() 
>>> # Add a "debug" directory to sys.path 


>>> sys.path.insert(0, 'debug' ) 
>>> import threading 


Looking for threading 
Looking for time 
Looking for traceback 
Looking for linecache 
Looking for tokenize 
Looking for token 

>>> 





这 里 ， 我 们 以 debug 为 名 称 安 装 了 一 个 新 的 绥 
存 条 目 ， 并 把 debug 作 为 sys.path 的 第 一 个 条 目 。 在 
之 后 所 有 的 导入 动作 中 ， 吏 会 发 现 目 己 定义 的 查询 
器 都 会 被 触发 执行 。 但 是 ， 由 于 它 只 会 返回 (None， 
口 ， 因 此 处 理 流程 只 是 简单 地 继续 前 往 下 一 个 条 目 
执行 。 


sys.path_importer_cache 中 的 内 容 是 由 保存 在 
sys.path_hooks 中 的 一 系列 疯 数 来 控制 的 。 演 试 做 下 
面 这 个 实验 ， 它 会 清空 缓存 ， 并 湛 加 一 个 新 的 路 往 
检查 函数 到 Sys.path_hooks 中 去 : 


>>> sys.path_importer_cache.clear() 


>>> 
def 


check_path(path): 


print 


('Checking', path) 


raise ImportError 


>>> sys.path_hooks.insert(0, check_path) 
>>> import fib 


Checked debug 
Checking . 
Checking /usr/local/1lib/python33.zip 
Checking /usr/local/lib/python3.3 
Checking /usr/local/1lib/python3.3/plat-darwin 
Checking /usr/local/lib/python3.3/1ib-dynload 
Checking /Users/beazley/.local/lib/python3.3/site-packages 
Checking /usr/local/lib/python3.3/site-packages 
Looking for fib 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ImportError: No module named 'fib' 
>>> 





可 以 看 到 ， 针 对 sys.path 中 的 每 一 个 条 目 ， 
check_path() 函 数 都 会 得 到 调用 。 但 是 由 于 会 产生 
ImportError 异 党 ， 因 此 实际 上 什么 也 没 友 生 ( 只 是 
跳 转 到 sys.path_hooks 中 的 下 一 个 冰 数 继续 执行 检 
Te 


利用 sys.path 的 处 理 机 制 ， 我 们 可 以 安装 一 个 目 
定义 的 路 竹 检 查 孔 数 来 查找 特定 的 文件 名 模式 ， 比 
如 URL。 示 例如 下 : 








>>> def 


check_url(path): 


if 
path.startswith('http://'): 
return 
Finder() 


else 


raise ImportError 


>>> sys.path.append('http://localhost:15000' ) 
>>> sys.path_hooks[0] = check_url 
>>> import fib 


Looking for fib # Finder output! 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 
ImportError: No module named 'fib' 


>>> # Notice installation of Finder in sys.path_importer_cache 


>>> sys.path_importer_cache[ 'http://localhost:15000' ] 
<__main__.Finder object at 0x10064c850> 
>>> 








这 了 吏 是 本 节 最 后 这 部 分 内 容 的 核心 工作 原理 。 
从 本 质 上 说 ， 就 是 在 sys.path_hooks 中 安装 一 个 用 来 
寻找 UREL 的 上 自 定 义 路 径 检查 函数 。 当 遇 到 这 个 目 定 








义 检查 函数 时 ， 会 产生 一 个 新 的 UrlPathFinder 实 例 
并 将 其 安装 到 sys.path_importer_cache 中 。 从 此 之 
后 ， 对 于 所 有 的 导入 语句 ， 只 要 在 授 历 sys.path 的 过 
程 中 过 到 这 个 部 分 ， 就 会 宪 试 使 用 目 定 义 的 查询 器 
Ts 


基于 路 径 的 导入 器 在 处 理 包 的 时 候 多 少 需 要 一 
些 技巧 ， 与 find_loader0) 方 法 的 返回 值 也 有 关系 。 对 
于 简单 的 模块 来 说 ，find_loader0 返 回 一 个 元 组 
(loader, None)， 这 里 的 loader 是 将 要 导入 这 个 模块 
的 加 载 需 实例 。 


对 于 一 个 普通 的 包 来 说 ，find_loader0 返 回 一 
个 元 组 (loader, pathb)， 这 里 的 loader 是 将 要 导入 这 个 
包 的 加 载 嚣 实例 (并 且 会 执行 _init_.py ) ， 而 
path 是 一 个 目录 列表 ， 这 些 目录 会 组 成 包 的 
”path 属性 的 初始 值 。 比 方 说 ， 如 果 URL 
是 http://localhost:15000 ， 并 且 某 个 用 户 执行 了 
import grok 语句 ，find_loader0 返 回 的 路 径 束 会 是 
['Lhttp://localhost: 15000/grok](http://localhost: 
15000/grok)']. 











find_loaderO 还 必须 负责 处 理 命名 空间 包 《 见 
10.5 节 ) 的 情况 。 命 名 空间 包 是 一 个 合法 的 包 ， 其 
目录 名 存在 但 其 中 并 不 包含 _init_.py 文件。 对 于 
这 种 情况 ，find_loader0 必 须 返 回 一 个 元 组 (None， 
path)， 这 里 的 path 是 一 个 目录 列表 ， 这 些 目 录 组 成 
了 包 的 _path_ 属 性， 并 和 普通 的 包 一 样 ， 认 为 在 
KLE ASE MA init__.py 文件 (实际 并 不 存 
Æ) 。 对 于 这 种 情况 ，import 导 入 机 制 会 继续 检查 
sys.path 中 的 目录 。 如 果 找 到 了 更 多 的 命名 空间 包 ， 
那么 所 有 找到 的 结果 路 径 都 会 连接 在 一 起 以 形成 一 




















个 最 终 的 命名 空间 包 。 有 关 命 名 空间 包 的 更 多 信息 
请 参见 10.5 节 。 


在 我 们 的 解决 方案 中 ， 在 处 理 包 的 时 候 还 运用 
本 化 归 的 思想 ， 虽 然 看 起 来 并 不 明显 但 它 同 样 能 够 
工作 。 所 有 的 包 都 包含 一 个 内 部 的 路 径 设 置 ， 这 可 
以 在 _path 属性 中 找到 。 示 例如 下 : 














>>> import xml.etree.ElementTree 


>>> xml. path _ 
['/usr/local/lib/python3.3/xml'] 
>>> xml.etree. 


__path__ 
['/usr/local/lib/python3.3/xml/etree' ] 
>>> 





正如 我 们 提 到 过 的 ，_path_ 的 设置 是 由 
find_loader() 方 法 的 返回 值 来 控制 的 。 但 是 ， 之 后 对 
_path_ 的 处 理 也 是 由 sys.path_hooks 中 的 函数 来 处 
理 的 。 因 此 ， 当 加 载 包 中 的 子 模 芯 时，_ path 
的 条 目 是 由 handle_url0 函 数 来 负 贡 检查 的 。 这 会 寻 
致 创建 出 新 的 UrlPathFinder 实 例 并 衣 加 到 
sys.path_importer_cache 中 。 


在 我 们 的 实现 中 ， 最 后 一 个 环 手 的 部 分 是 考 碟 


handle_url0 函 数 的 行为 以 及 它 同 内 部 使 用 的 函数 
_get_links(0) 之 间 的 交互 。 如 果 我 们 的 查询 器 实现 中 





用 到 了 其 他 的 模块 《〈 例 如 urllib.request) , AAG 
可 能 这 些 模块 会 在 得 询 器 工作 的 过 程 中 发 起 进一步 
的 模块 导入 请 求 。 这 残 会 导致 handle_url0 和 得 询 需 
的 其 他 部 分 以 循环 递归 的 形式 执行 下 去 。 为 了 应 对 
这 种 可 能 ， 我 们 给 出 的 实现 中 对 已 经 创建 出 的 查询 
颖 维护 了 一 个 缓存 对 象 〈 每 条 URL 对 应 一 个 绥 

存 ) 。 这 了 吏 避 免 了 重复 创建 查询 器 的 问题 。 此 外 ， 
下 面 的 代码 片段 确保 了 查询 器 在 获取 初始 链接 的 过 
程 中 不 会 去 啊 应 任何 导入 请 求 : 














# Check link cache 


if 


self. links is 


None: 
self. links = [] # See discussion 


self. links = _get_links(self._baseur1) 





在 其 他 的 实现 中 可 能 不 需要 做 上 述 检 查 ， 但 是 
对 于 这 个 涉及 URL 的 例子 ， 这 么 做 是 必需 的 。 





最 后 ， 查 询 器 中 的 invalidate_cachesO 是 一 个 实 


用 的 方法 ， 当 源 代 码 需 要 发 生 改 变 时 用 来 清除 内 部 
的 缓存 。 当 用 户 调 用 importlib.invalidate_caches() 时 
会 触发 该 方法 执行 。 如 果 想 让 UREL 导 入 器 重新 谈 取 
链接 列表 ， 可 以 使 用 这 个 方法 。 这 么 做 可 能 是 为 了 
能 够 访问 到 新 添加 的 文件 。 


对 比 以 上 两 种 方法 〈 修 改 sys.meta_path 或 者 使 
Hpath r) 有 助 于 站 在 更 高 层 的 角度 来 看 待 问 
题 。 利 用 sys.meta_path 安 装 的 导入 器 可 以 目 由 地 以 
任何 它们 所 希望 的 方式 来 处 理 模块 。 人 例如， 它们 可 
以 从 数据 库 中 取出 模块 加 载 ， 或 者 以 根本 不 同 于 普 
通 的 模块 / 包 处 理 的 方式 来 完成 导入 。 这 种 目 由 同样 
意味 独 这 样 的 导入 堪 需 要 做 更 多 的 短 记 

(bookkeeping) 和 内 部 管理 工作 。 这 也 解释 了 为 何 
在 UrlMetaFinder 的 实现 中 需要 目 己 实现 链接 缓存 、 
加 载 器 以 及 其 他 一 些 细节 。 男 一 方面 ， 基 于 路 径 的 
钧 子 方法 则 同 sys.path 的 处 理 联系 得 更 为 紧密 。 由 于 
同 sys.path 的 关系 紧密 ， 以 这 种 扩展 方式 加 载 的 模块 
在 特征 上 倾 回 于 与 程序 员 通 党 使 用 的 普通 模块 和 包 
相同 。 


假设 你 的 大 脑 现 在 还 没有 完全 焊 炸 ， 理 解 和 试 


验 本 市 中 技术 的 关键 方 法 可 能 束 是 添加 日 志 记 录 
了 。 我 们 可 以 开局 日 志 功 能 并 壬 试 如 下 的 试验 : 


>>> import logging 




















>>> logging.basicConfig(level=logging .DEBUG) 
>>> import urlimport 


>>> urlimport.install_path_hook() 
DEBUG: urlimport:Installing handle_url 
>>> import fib 


DEBUG: urlimport:Handle path? /usr/local/lib/python33.zip. [No] 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ImportError: No module named 'fib' 
>>> import sys 


>>> sys.path.append('http://localhost:15000' ) 
>>> import fib 


DEBUG: urlimport:Handle path? http://localhost:15000. [Yes] 
DEBUG: urlimport:Getting links from http://localhost:15000 
DEBUG: urlimport:links: {'spam.py', 'fib.py', '‘grok'} 

DEBUG: urlimport:find_loader: 'fib' 

DEBUG: urlimport:find_loader: module 'fib' found 

DEBUG: urlimport:loader: reading 'http://localhost:15000/fib.py' 
DEBUG: urlimport:loader: 'http://localhost:15000/fib.py' loaded 
I'm fib 

>>> 





最 后 但 同样 重要 的 是 ， 睡 前 在 枕头 下 备 好 PEP 





302 Chttp://www.python.org/dev/peps/pep-0302 ) 和 
importlib 的 文 要 ， 花 些 时 间 旋 一 该 它们 也 许 是 很 明 


10.12 ”在 模块 加 载 时 为 其 打 补 丁 


10.12.1 问题 


我 们 想 对 已 有 的 模块 打 补 丁 或 对 其 中 的 函数 添 
加 靶 饰 磺 。 但 是 ， 我 们 只 希望 当 模 块 实际 得 到 导入 
的 时 候 才 这 么 做 ， 之 后 再 在 别处 使 用 。 





10.12.2 ”解决 方案 


这 个 问题 的 关键 在 于 我 们 想 针对 正在 加 载 的 模 
块 执行 啊 应 操作 。 当 茶 个 模块 得 到 加 载 时 ， 也 许 我 
们 想 触 肥 菜 种 形式 的 回调 函数 来 通知 这 一 事实 。 


这 个 问题 可 以 使 用 10.11 节 中 讨论 过 的 import 钧 
子 机 制 来 解决 。 下 面 是 一 种 可 能 的 解决 方案 : 





# postimport.py 


import importlib 


import sys 


from collections import 


defaultdict 
_post_import_hooks = defaultdict(list) 


class PostImportFinder 


def 


__ init__(self): 


self._skip = set() 


def 


find_module(self, fullname, path=None): 
if 


fullname in 


self._skip: 
return 


None 
self. _skip.add( fullname) 
return 


PostImportLoader (self) 


class PostImportLoader 


def 


__init__(self, finder): 
self. finder = finder 


def 


load_module(self, fullname): 
importlib.import_module( fullname ) 
module = sys.modules[ fullname | 
for 


func in 


_post_import_hooks[ fullname]: 
func(module) 
self. finder. skip.remove( fullname ) 
return 


module 


def 


when_imported( fullname): 
def 


decorate(func): 
if 


fullname in 


sys.modules: 
func(sys.modules[ fullname] ) 
else 


_post_import_hooks[ fullname] .append( func) 


return 


func 
return 


decorate 


sys.meta_path.insert(0, PostImportFinder()) 





要 使 用 这 份 代码 ， 束 要 用 到 when_imported() 装 
饰 苍 。 示 例如 下 : 


>>> from postimport import 


when_imported 
>>> @when_imported('threading' ) 
. def 


warn_threads(mod): 
print 


('Threads? Are you crazy?' ) 


>>> 
>>> import threading 


Threads? Are you crazy? 
>>> 





作为 一 个 更 加 实际 的 例子 ， 也 许 想 在 已 有 的 定 


义 上 添加 装饰 顷 ， 比 如 : 


from functools import 


wraps 
from postimport import 
when_imported 

def 

logged(func): 


@wraps(func) 
def 


wrapper (*args, 
print 


**kwargs): 


('Calling', func.__name__, args, 
return 


func(*args, 
return 


**kwargs) 


wrapper 


# Example 


@when_imported('math' ) 
def 





kwargs) 


add_logging(mod): 
mod.cos = logged(mod.cos) 
mod.sin = logged(mod.sin) 





10.12.33 ”讨论 


本 市 依赖 于 10.11 市 中 讨论 过 的 import 钓 子 技 
术 ， 做 了 少许 修改 。 


首先 ，@when_imported 装 饰 妖 的 作用 是 注册 在 
导入 时 需要 触发 执行 的 处 理 函 数 。 这 个 装饰 器 检查 
sys.modules， 看 菜 个 模块 是 否 已 经 加 载 『。 如 果 
是 ， 则 立刻 调用 处 理 函 数 。 否 则 惑 将 处 理 函 数 深 加 
到 _post_import_hooks 字 典 中 去 。 定 义 
_post_import_hooks 的 目的 只 是 简单 地 用 来 收集 所 有 
的 已 经 针对 每 个 模块 所 注册 的 处 理 对 象 。 原 则 上 ， 
对 于 一 个 给 定 的 模块 可 以 注册 多 个 处 理 程序 。 


在 导入 模块 之 后 ， 要 触发 _post_import_hooks 中 
挂 起 的 操作 ，PostImportFinder 类 的 实例 束 要 安装 到 
sys.meta_path 中 的 站 元 系 位 置 上 。 如 果 回 顾 一 下 
10.11 节 就 会 知道 ，sys.meta_path 中 包含 一 列 用 来 定 
位 模块 位 置 的 查询 嚣 对象。 通过 将 PostImportFinder 
RAS RAVAN CRIB, ABA ERT 
获 所 有 的 模块 导入 动作 。 























但 是 在 本 节 中 ，PostImportFinder 的 作用 不 是 用 
来 加 载 模块 ， 而 是 触发 相应 的 处 理 流程 来 完成 整个 
导入 动作 。 要 做 到 这 一 点 ， 实 际 的 导入 被 委托 给 
sys.meta_path 中 的 其 他 查询 右 来 完成 。 不 要 尝试 直 
接 实 现 这 一 步骤 ， 相 反 ， 我 们 是 在 PostImportLoader 
类 中 递归 调用 函数 imp.import_module() 来 完成 的 。 
为 了 避免 出 现 无 限 递归 的 情况 ， 我 们 在 
PostImportFinder 类 中 维护 了 一 个 集合 ， 其 中 包含 所 
有 当前 正 处 于 加 载 过 程 中 的 模块 。 如 果菜 个 模块 名 
属于 这 个 集合 ，PostImportFinder 只 会 简单 地 忽略 
它 。 这 残 是 导致 Import 请 求 会 传递 给 sys.meta_path 
中 其 他 得 询 器 处 理 的 原因 。 


在 一 个 模块 已 经 通过 imp.import_module() 加 载 
之 后 ， 所 有 当前 注册 到 _post_import_hooks 中 的 处 理 
例 程 都 会 以 新 加 载 的 模块 作为 参数 得 到 调用 。 从 这 
一 刻 开 始 ， 处 理 例 程 就 可 以 目 由 地 对 模块 做 任何 想 
做 的 操作 了 。 


本 市 所 展示 的 方法 中 一 个 主要 的 特性 就 是 对 模 
块 的 打 补 丁 操作 是 以 无 颖 的 方式 进行 的 ， 与 所 感 兴 
趣 的 模块 的 实际 位 置 和 加 载 方式 无 关 。 只 需要 简单 
地 编写 一 个 处 理 函 数 并 用 @when_imported0 进 行 装 
= MARZENA KI EEE aE Be BA He it 














本 节 中 需要 注意 的 一 个 问题 是 对 于 已 经 使 用 
imp.reload() 显 式 重 新 加 载 的 模块 ， 本 节 给 出 的 方法 
是 无 效 的 。 也 就 是 说 ， 如 果 重 新 加 载 一 个 之 前 加 载 
过 的 模块 ， 处 理 例 程 是 不 会 再 次 得 到 触发 的 (我 们 
有 了 更 多 的 理由 不 要 在 生产 环境 中 使 用 reload()) 。 
而 男 一 方面 ， 如 果 从 sys.modules 中 删除 模块 然后 再 
重新 导入 ， 就 会 发 现 处 理 例 程 会 再 次 触发 执行 。 


更 多 有 关 post-import 钓 子 的 信息 可 以 在 PEP 
369 (http:/www.python.org/dev/peps/pep-0369 ) 中 
找到 。 在 写作 本 市 时 ， 这 份 PEP 己 经 被 作者 撤销 
了 ， 原 因 是 它 同 当前 的 importlib 模 块 的 实现 相 比 显 
得 过 时 了， 但 是 利用 本 市 所 展示 的 方法 实现 上 日 己 的 
解决 方案 已 经 足够 简单 了 。 














10.13 ”安装 只 为 目 己 所 用 的 包 
10.13.1 问题 


我 们 想 安 疲 一 个 第 三 方 的 包 ， 但 是 没有 权限 在 
系统 Python 中 安装 其 他 的 包 。 男 一 种 情况 是 ， 也 许 
我 们 只 想 安 儿 一 个 给 目 己 使 用 的 包 ， 而 不 是 给 系统 
FA EN Tal A RH: 








10.13.2 解决 方案 
Python 有 一 个 用 户 级 的 安装 目录 ， 通 常 位 于 类 
似 ~./locallib/python3.3/site-packages | 的 目录 


下 。 要 让 包 强 制 安装 到 这 个 目录 下 ， 只 要 在 安装 命 
令 后 诬 加 --user 选 项 即 可 。 示 例如 下 : 


python3 setup.py install -user 


或 者 


pip install --user packagename 


用 户 级 的 site-package 目录 通常 会 在 sys.path 中 
出 现 ， 且 位 于 系统 级 的 site-package 目录 之 前 。 
此 ， 采 用 这 种 技术 安 痛 的 包 比 已 经 安 狠 到 系统 中 的 
包 优 移 级 要 高 《尽管 并 不 会 总 是 这 样 ， 这 取决 于 第 
三 方 包 管 理工 具 的 具体 行为 ， 比 如 distribute 或 
pip) 。 





10.13.3 ”讨论 


一 般 来 说 ， 包 会 被 安装 到 系统 级 的 site- 
package 目录 下 ， 可 以 在 例如 /usr/locallib/ 
python3.3/site-packages 的 位 置 上 找到 。 但 是 安装 到 
系统 级 的 目录 下 通 弟 都 需要 有 管理 员 权 限 ， 并 且 要 
使 用 sudo 命 令 。 融 算 我 们 有 权限 执行 这 样 的 命令 ， 
使 用 sudo 安 装 一 个 新 的 且 没 有 经 过 实践 证 明 的 包 人 也 
可 能 会 给 我 们 带 来 贱 烦 。 

把 包 安 装 到 用 户 级 的 目录 中 通 利 是 一 种 有 效 的 
en 这 么 做 允许 我 们 创建 一 个 目 定 义 的 安 

另 一 种 解雇 方案 是 可 以 创建 一 个 虚拟 环境 ， 这 
正 是 我 们 在 下 一 节 要 讨论 的 主题 。 











10.14 创建 新 的 Python 环境 
10.14.1 问题 


我 们 想 创 建 一 个 新 的 Python 环境 ， 在 新 环境 中 
可 以 自由 地 安装 模块 和 包 。 人 但是， 我 们 并 不 想 为 此 
安装 一 个 新 的 Python 找 贝 或 者 做 出 任何 可 能 会 影 啊 
到 系统 级 Python 安装 的 修改 。 





10.14.2 ”解决 方案 


可 以 通过 pyvenv 命 令 创建 一 个 新 的 “虚拟 ” 环 
境 。 这 个 命令 被 安装 到 同 Python 解释 器 一 样 的 目录 
中 ， 在 Windows 下 可 能 位 于 Scripts 目录 下 。 这 里 有 


bash % pyvenv Spam 
bash % 


提供 给 pyvenv 的 名 称 就 是 将 要 创建 的 目录 名 
称 。 创 建 好 之 后 ，Spam 目录 看 起 来 是 这 样 的 : 
bash % cd Spam 


bash % 1s 
bin include lib pyvenv.cfg 











bash % 


Ebin 目录 下 ， 我 们 会 发 现 有 一 个 可 使 用 的 
Python 解释 器 。 示 例如 下 : 


bash % Spam/bin/python3 

Python 3.3.0 (default, Oct 6 2012, 15:45:22) 

[GCC 4.2.1 (Apple Inc. build 5666) (dot 3)] on darwin 

Type "help", "copyright", "credits" or "license" for more inform 
>>> from pprint import pprint 

>>> import sys 

>>> pprint(sys.path) 


'/usr/local/lib/python33.zip', 

'/usr/local/lib/python3.3', 

'/usr/local/lib/python3.3/plat-darwin', 

'/usr/local/1lib/python3.3/1lib-dynload', 

'/Users/beazley/Spam/1lib/python3.3/site-packages' ] 
>>> 








IRE as OL PIE BE ZE E AY) site-package 
目录 已 经 被 设 定 为 同 新 创建 的 环境 相关 联 So UNA 
决定 安装 第 三 方 的 包 ， 那 么 它们 就 会 被 安装 到 这 
里 ， 而 不 是 普通 的 系统 级 site-package 目录 中 。 


10.14.3 ”讨论 
创建 虚拟 环境 大 部 分 的 原因 都 是 为 了 安装 和 管 


理 第 三 方 的 包 。 可 以 在 示例 中 看 到 ，sys.path 变 量 中 
包含 的 目录 来 自 于 普通 的 系统 级 Python， 但 是 site- 

















package 目录 已 经 被 重 新 定位 到 新 的 目录 上 了 。 


有 了 新 的 虚拟 环境 ， 下 一 步 通 单 是 安装 一 个 包 
管理 器 ， 比 如 distribute 或 者 pip。 当 安装 这 类 工具 和 
其 他 的 包 时 ， 只 需 确 保 使 用 的 是 虚拟 环境 中 的 解释 
器 即 可 。 这 样 的话 ， 安 装 的 包 应 该 融会 放 在 新 创建 
的 site-packages 目录 下 了 。 


尽管 虚拟 环境 看 起 来 好 像 是 Python 安 痛 的 一 份 
找 贝 ， 但 它 实 际 上 只 是 由 儿 个 文件 和 一 些 符 所 链接 
所 组 成 。 所 有 的 标准 库 文 件 和 解释 器 执行 文件 都 来 
自 于 原来 的 Python 安装 包 。 因 此 ， 创 建 这 样 的 环境 
非常 简单 方便 ， 几 乎 不 与 用 什么 系统 资源 。 


默认 情况 下 ， 虚 拟 环 境 是 完全 干 兆 且 不 包含 任 
何 第 三 方 插 件 的 。 如 果 想 将 已 经 安装 过 的 包 引 入 ， 
使 其 作为 虚拟 环境 的 一 部 分 ， 那 么 可 以 使 用 选项 -- 
system-site-packages 来 创建 虚拟 环境 。 示 例如 下 : 

















bash % pyvenv --system-site-packages Spam 
bash % 


AR pyvenv 和 虚拟 环境 的 更 多 信息 可 以 在 
PEP 405 Chttp://www.python.org/dev/peps/ pep-0405 
) 中 找到 。 








10.15 发布 日 定义 的 包 
10.15.1 问题 


我 们 编写 了 一 个 有 用 的 库 ， 想 将 其 分 肥 给 其 他 
人 使 用 。 


10.15.2 ”解决 方案 


如 果 打 算 将 代码 友和 布 出 去 ， 痛 先 要 做 的 束 古 为 
自己 的 库 起 一 个 独一无二 的 名 称 并 清理 代码 的 目录 
结构 。 例 如 ， 一 个 典型 的 程序 库 络 构 看 起 来 大 致 旦 
这 样 的 : 





projectname/ 
README.txt 
Doc/ 
documentation.txt 
projectname/ 
__ init__.py 
foo .py 
bar .py 
utils/ 


__ init__.py 
spam. py 
grok.py 
examples/ 
helloworld.py 








要 使 得 包 能 够 肥 布 出 去 ， 前 先 编写 一 











个 setup.py 文件 ， 看 起 来 是 这 样 的 : 


# setup.py 
from distutils.core import setup 


setup(name='projectname', 
version='1.0', 
author='Your Name', 
author_email='you@youraddress.com', 
url='http://www.you.com/projectname', 
packages=['projectname', 'projectname.utils'], 





接 下 来 要 创建 一 个 MANIFEST in 文件 ， 并 在 其 
中 列 出 各 种 希望 包含 在 包 中 的 非 源 代码 文件 : 


# MANIFEST.in 
include *.txt 
recursive-include examples * 








recursive-include Doc * 





确保 setup.py FIMANIFEST.in 文件 位 于 包 的 顶 
层 目 录 。 一 旦 做 完 这 些 ， 应 该 束 能 够 通过 命令 来 创 
一 个 源 代码 级 的 分 发 包 了 : 


% bash python3 setup.py sdist 





根据 不 同 的 系统 平台 ， 这 么 做 会 创建 出 像 
projectname-1.0.zip 244 projectname-1.0.tar.gz 这 样 
SCHR. MR WIA, eC EP AT HREN 
其 他 人 或 者 上 传 到 Python Package 
Index Chttp://pypi.python.org ) EJ. 





10.15.33 ”讨论 


对 于 纯 Python 代 码 来 说 ， 编 写 一 个 简单 的 
setup.py 文件 通常 是 很 直接 的 。 但 其 中 一 个 潜在 的 
问题 是 我 们 必须 手动 列 出 包 中 的 每 一 个 子 目录 。 一 
个 常见 的 错误 就 是 只 列 出 了 包 的 顶层 目录 而 在 记 包 
舍 进 包 中 的 子 模块 。 这 就 是 为 什么 在 setup.py 中 对 
包 的 规格 说 明 里 包含 了 列表 packages=['projectname，， 
projectname.utils] 的 原因 。 


大 多 数 Python 程 序 员 都 知道 ， 如 今 有 许多 第 三 
方 的 包 管 理工 具 ， 包 括 安 装 、 发 布 相 关 的 ， 等 等 。 
这 些 第 三 方 工具 中 有 一 些 可 用 来 奉 代 标准 库 中 的 
distutils 库 。 请 注意 ， 如 果 要 依赖 这 些 包 ， 那 么 用 户 
可 能 没 法 安装 使 用 我 们 的 软件 ， 除 非 他 们 也 安装 了 
所 需 的 包 管 理工 具 。 基 于 此 ， 只 要 我 们 尽 可 能 让 事 
情 变 得 简单 ， 那 惑 几 乎 不 会 出 什么 错误 。 最 低 要 求 
是 请 确保 代码 可 以 通过 使 用 标准 的 Python 3 安装 方 
式 来 安装 。 如 果 还 有 别 的 安装 包 可 用 ， 那 么 可 以 将 
它们 作为 可 选项 以 文 持 额外 的 功能 。 























打包 和 发 布 涉及 C 语 言 扩 展 的 代码 则 会 变 得 复 
杂 得 多 。 在 第 15 音 有 关 C 语 言 扩展 的 章节 中 谈 到 了 
一 些 关 于 此 的 细节 。 具 体 请 参见 15.2 节 。 











第 11 章 ”网 络 和 Web 编 程 


本 章 涵盖 了 在 网 络 应 用 和 分 布 式 应 用 中 使 用 
Python 的 各 种 主题 。 主 题 可 划分 为 使 用 Python 编写 
客户 病程 序 来 访问 己 有 的 服务 ， 以 及 使 用 Python 实 
现 网 络 服务 端 程序 。 本 章 也 提 到 了 编写 代码 使 多 个 
解释 器 协同 工作 或 者 互相 通信 的 常见 技术 。 














11.1 以 客户 痕 的 形式 同 HTTP 服 
BAR A, 


11.1.1 问题 








我 们 需要 以 客户 端的 形式 通过 HTTP 协 议 访 问 
多 种 服务 。 比 如 ， 下 载 数据 或 者 同一 个 基于 REST 
的 API 进 行 交互。 


11.1.2 解决 方案 
对 于 简单 的 任务 来 说 ， 使 用 urllib.request 模 块 


通常 就 足够 了 。 比 方 说 ， 要 发 送 一 个 简单 的 HTTP 
GET tak Bie ing ARB ASE, AY PACER AL: 








from urllib import 


request, parse 


# Base URL being accessed 


url = ‘'http://httpbin.org/get' 


# Dictionary of query parameters (if any) 


'name1' : 'valuet', 
"name2' : 'value2' 


# Encode the query string 


querystring = parse.urlencode(parms) 
# Make a GET request and read the response 


u = request.urlopen(url+'?' + querystring) 
resp = u.read() 





如 果 需 要 使 用 POST 方法 在 请 求 主 体 Crequest 





body) 中 发 送 得 询 参数 ， 可 以 将 参数 编码 后 作为 可 
选 参 数 提供 给 urlopen0 〇 0) 函数， 就 像 这 样 : 





from urllib import 


request, parse 


# Base URL being accessed 


url = 'http://httpbin.org/post' 


# Dictionary of query parameters (if any) 


parms = { 
'name1' : 'valuet', 
‘name2' : 'value2' 


} 


# Encode the query string 


querystring = parse.urlencode(parms) 


# Make a POST request and read the response 


u = request.urlopen(url, querystring.encode('ascii') ) 
resp = u.read() 











如 果 需 要 在 发 出 的 请 求 中 提供 一 些 自 定义 的 
HTTP 头 ， 比 如 修改 user-agent 字 段 ， 那 么 可 以 创建 
一 个 包含 字段 值 的 字典 ， 并 创建 一 个 Redquest 实 例 然 
后 将 其 传 给 urlopen()。 示 例如 下 : 





from urllib import 


request, parse 


# Extra headers 


headers = { 
'User-agent' : 'none/ofyourbusiness', 
'Spam' : 'Eggs' 


} 


req = request.Request(url, querystring.encode('ascii'), headers= 


# Make a request and read the response 


u = request.urlopen(req) 
resp = u.read() 








如 果 需 要 交互 的 服务 比 上 面 的 例子 都 要 复杂 ， 
也 许 应 该 去 看 看 requests 库 〈[http://pypi. 
python.org/pypi/requests |(http://pypi. 
python.org/pypi/requests)) 。 比 如 ， 下 面 这 个 示例 
采用 requests 库 重新 实现 了 上 面 的 操作 : 








import requests 


# Base URL being accessed 


url = 'http://httpbin.org/post' 
# Dictionary of query parameters (if any) 


parms = { 
'name1' : 'valuet', 
‘name2' : 'value2' 


# Extra headers 


headers = { 
'User-agent' : 'none/ofyourbusiness', 
'Spam' : 'Eggs' 

} 


resp = requests.post(url, data=parms, headers=headers) 


# Decoded text returned by the request 


text = resp.text 





关于 requests 库 ， 一 个 值得 一 提 的 特性 束 是 它 
能 以 多 种 方式 从 请 求 中 返回 响应 结果 的 内 容 。 从 上 
面 的 代码 来 看 ，resp.text 带 给 我 们 的 是 以 Unicode 解 





码 的 啊 应 文本 。 但 是 ， 如 果 去 访问 resp.content， 束 
会 得 到 原始 的 二 进 制 数据 。 另 一 方面 ， 如 果 访 问 
resp.json， 那 么 束 会 得 到 JSON 格 式 的 啊 应 内 容 。 


下 面 这 个 示例 利用 requests 库 来 发 起 一 个 HEAD 
请 求 ， 并 从 啊 应 中 提取 出 一 些 HTTP 头 数据 的 字 


Py: 








import requests 


resp = requests.head('http://www.python.org/index.htm1' ) 


status = resp.status_code 

last_modified = resp.headers['last-modified' | 
content_type = resp.headers[ 'content-type' ] 
content_length = resp.headers['content-length' | 





下 面 的 示例 使 用 requests 库 通过 基本 的 认证 在 
Python Package Index 〈 也 就 是 pypi) 上 执行 了 一 个 
登录 操作 : 


import requests 


resp = requests.get('http://pypi.python.org/pypi?:action=login', 
auth=('user', 'password' ) ) 





下 面 的 示例 使 用 requests 库 将 第 一 个 请 求 中 得 
到 的 HITP cookies 传 递 给 下 一 个 请 求 : 





import requests 


# First request 


respi = requests.get(url) 


# Second requests with cookies received on first requests 


resp2 = requests.get(url, cookies=resp1.cookies ) 





最 后 但 也 同样 重要 的 是 ， 下 面 的 例子 使 用 
requests 库 来 实现 内 容 的 上 传 : 


import requests 


url = 'http://httpbin.org/post' 


files = { 'file': ('data.csv', open('data.csv', 'rb')) } 


r = requests.post(url, files=files) 





11.1.3 讨论 


对 于 确实 很 简单 的 HTTP 客 户 端 代 码 ， 通 常 使 
用 内 建 的 urllib 模 块 就 足够 了 。 但 是 ， 如 果 要 做 的 不 
仅仅 只 是 简单 的 GET 或 POST 请 求 ， 那 就 真 的 不 能 
再 依赖 它 的 功能 了 。 这 时 候 束 是 第 三 方 模块 比如 
requests KE F FRIR T o 


举 个 例子 ， 如 果 我 们 决定 坚持 使 用 标准 的 程序 
库 而 不 考虑 像 requests 这 样 的 第 三 方 库 ， 那 么 也 许 束 
不 得 不 使 用 底层 的 http.client 模 块 来 实现 自己 的 代 
人 码 。 比 方 说 ， 下 面 的 代码 展示 了 如 何 执行 一 个 
HEAD 请 求 : 





from http.client import 


HTTPConnection 

from urllib import 

parse 

c = HTTPConnection('www.python.org', 80) 
c.request('HEAD', '/index.html' ) 


resp = c.getresponse() 


print 


('Status', resp.status) 
for 


name, value in 


resp.getheaders(): 
print 


(name, value) 





同样 地 ， 如 果 必 须 编写 涉及 代理 、 认 证 、 
cookies 以 及 其 他 一 些 细 节 方 面 的 代码 ， 那 么 使 用 
urllib 残 显得 特别 别扭 和 吵 嗓 。 比 方 说 ， 下 面 这 个 示 
例 实 现在 Python package index 上 的 认证 : 





import urllib.request 


auth = urllib.request.HTTPBasicAuthHandler ( ) 
auth.add_password('pypi', 'http://pypi.python.org', 'username', 'pa 
opener = urllib.request.build_opener (auth) 


r urllib.request.Request('http://pypi.python.org/pypi?:action= 
u opener .open(r ) 
resp = u.read() 


# From here. You can access more pages using opener 





坦白 说 ， 所 有 这 些 操作 在 requests 库 中 都 变 得 


Ate på 4 
简单 得 多 。 


在 开发 过 程 中 测试 HTTP 客户 端 代码 常常 是 很 
令 人 泪 形 的 ， 因 为 所 有 环 手 的 细节 问题 都 需要 考虑 
(例如 cookies、 认 证 、HTTP 头 、 编 码 方式 等 ) 。 
要 完成 这 些 任务 ， 考 虑 使 用 httpbin 服 务 








Chttp://httpbin.org ) 。 这 个 站 点 会 接收 发 出 的 请 
求 ， 然 后 以 JSON 的 形式 将 啊 应 信息 回 传 回来 。 下 
面 是 一 个 交互 式 的 例子 : 





>>> import requests 


>>> r = requests.get('http://httpbin. org/get?name=Dave&n=37', 
headers = { 'User-agent': 'goaway/1.0' }) 

>>> resp = r.json 

>>> resp['headers' ] 

{'User-Agent': 'goaway/1.0', 'Content-Length': '', ‘Content-Type 


"Accept-Encoding': 'gzip, deflate, compress', 'Connection': 
"keep-alive', 'Host': 'httpbin.org', ‘Accept': '*/*'} 

>>> resp['args' ] 

{'name': 'Dave', 'n': '37'} 

>>> 








在 要 同一 个 真正 的 站 点 进行 交互 前 ， 先 在 
httpbin.org 这 样 的 网 站 上 做 实验 常常 是 可 取 的 办 
法 。 尤 其 是 当 我 们 面 对 3 次 登录 失败 就 会 关闭 账户 
这 样 的 风险 时 尤为 有 用 《不 要 答 试 目 己 编 与 HTTP 
认证 客户 疹 来 登录 你 的 银行 账户 ) 。 


尽管 本 节 没 有 涉及 ，requests 库 还 对 许多 高 级 
的 HTTP 和 客户 剖 协 议 提 供 了 文 持 ， 比 如 OAuth。 
requests 模 块 的 文档 (http://docs.python-requests.org 
) 质量 很 高 〈 坦 日 说 比 在 这 短 短 一 节 的 篇 由 中 所 提 
供 的 任何 信息 都 好 ) ， 可 以 参考 文档 以 获得 更 多 的 
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11.2 创建 一 个 TCP 服 务 器 


11.2.1 问题 


我 们 想 实 现 一 个 通过 TCP 协 议 同 客户 端 进行 通 
信 的 服务 右 。 


11.2.2 解决 方案 
创建 TCP 服 务 器 的 一 种 简单 方式 束 是 利用 


Socketserver 库 。 比 如 ， 下 面 是 一 个 简单 的 echo 服 务 
示例 : 











from socketserver import 


BaseRequestHandler, TCPServer 


class EchoHandler 


(BaseRequestHandler ): 
def 


handle(self): 
print 


('Got connection from', self.client_address) 
while 


True: 


msg = self.request.recv(8192) 
if not 


break 


self.request.send(msg) 
if 
_hname == ' main__': 


serv = TCPServer(('', 20000), EchoHandler ) 
serv.serve_forever() 





在 这 份 代码 中 ， 我 们 定义 了 一 个 特殊 的 处 理 





类 ， 它 实现 了 一 个 handle0) 方 法 来 服务 于 客户 端的 
连接 。 这 里 的 request 属 性 惑 代 表 着 底层 的 客户 端 
socket， 而 client_ address 中 包含 了 客户 端的 地 址 。 








要 测试 这 个 服务 疹 程 序 ， 首 移 运行 这 个 脚本 ， 
然后 打开 为 一 个 Python 进 程 并 将 其 连接 到 服务 病 
E: 





>>> from socket import 


socket, AF_INET, SOCK_STREAM 
>>> s = socket(AF_INET, SOCK_STREAM) 


>>> s.connect(('localhost', 20000) ) 
>>> s.send(b'Hello') 

5 

>>> s.recv(8192) 

b'Hello' 

>>> 





在 许多 情况 下 ， 定 义 一 个 类 型 稍 有 不 同 的 处 理 
可 能 会 更 加 简单 。 下 面 的 示例 使 用 
lial ae 基 类 ， 给 底层 的 socket 加 
上 了 文件 类 型 的 接口 : 





from socketserver import 


StreamRequestHandler, TCPServer 


class EchoHandler 


(StreamRequestHandler ) : 
def 


handle(self): 
print 


('Got connection from', self.client_address) 
# self.rfile is a file-like object for reading 


line in 


self.rfile: 


# self.wfile is a file-like object for writing 


self .wfile.write(line) 


if 


_name == ' main __': 


serv = TCPServer(('', 20000), EchoHandler ) 
serv.serve_forever() 





11.2.3 ”讨论 


socketserver ici Ef Gi!) E faj ATCP IRS a 744 
对 来 说 变 得 容易 了 许多 。 但 是 ， 应 该 要 注意 的 是 ， 
默认 情况 下 这 个 服务 器 是 单线 程 的 ， 一 次 只 能 处 理 
一 个 客户 问 。 如 果 想 处 理 多 个 客户 问 ， 可 以 实例 化 
ForkingTCPServer 或 者 ThreadingTCPServer 对 象 。 示 
例如 下 : 





from socketserver import 


ThreadingTCPServer 


if 


_name == ' main 


serv = ThreadingTcPServer(('', 20000), EchoHandler ) 
serv.serve_forever() 





多 进程 和 多 线程 服务 硕 的 问题 在 于 它们 会 针对 
每 一 个 客户 站 连接 创建 一 个 新 的 进程 或 线程 。 但 是 








允许 连接 的 客户 端 数量 是 没有 上 限 的 ， 因 此 一 个 怀 
有 恶意 的 黑客 可 能 会 同时 发 起 海量 的 连接 使 你 的 服 
Fr te TE TH o 





如 有 果 需 要 考虑 这 个 因素 ， 则 可 以 创建 一 个 预先 
分 配 好 的 工作 者 线程 或 进程 地 。 要 做 到 这 一 点 ， 我 
们 首先 创建 一 个 普通 的 《〈 非 多 线程 /多 进程 ) 服务器 
实例 ， 但 是 之 后 在 多 个 线程 中 调用 serve_forever() 方 
法 。 示 例如 下 : 








if 


__name__ == ' main_': 
from threading import 


Thread 
NWORKERS = 16 


serv = TCPServer(('', 20000), EchoHandler ) 
for 


n in 


range(NWORKERS ) : 
t = Thread(target=serv.serve_forever ) 
t.daemon = True 
t.start() 
serv.serve_forever() 





— ORL, TCPServerZeé KPR it BB rE FF 
激活 底层 的 socket。 但 是 ， 有 时 候 我 们 可 能 会 想 通 
et 要 做 到 

一 点 ， 可 以 提供 bind_and_activate=False 参 数 ， 残 
像 这 样 : 


_hname == ' main__': 
serv = TCPServer(('', 20000), EchoHandler, bind_and_activate 
# Set up various socket options 


serv.socket.setsockopt(socket.SOL_SOCKET, socket .SO_REUSEADDI 
# Bind and activate 


serv.server_bind() 
serv.server_activate() 
serv.serve_forever() 





上 面 给 出 的 socket 选 项 实际 上 是 一 种 非常 第 见 
的 设置 。 它 允许 服务 器 重新 对 之 前 使 用 过 的 端口 号 
进行 绑 定 。 由 于 这 个 设置 实在 是 太 常 用 了 ， 因 此 在 
TCPServer 类 中 也 提供 了 一 个 完成 相同 功能 的 类 变 
量 ， 在 实例 化 服务 器 之 前 设 定 它 妈 可， 如 下 所 示 : 














_name == ' main _': 
TCPServer.allow_reuse_address = True 


serv = TCPServer(('', 20000), EchoHandler) 
serv.serve_forever() 








在 这 个 解决 方案 中 ， 我 们 展示 了 两 个 不 同 的 基 
类 (BaseRequestHandler 和 
StreamRequesthandler) 。StreamRequestHandler 类 
实际 上 要 更 灵活 一 些 ， 而 且 可 以 通过 指定 额外 的 类 
变量 来 提供 一 些 功 能 。 比 如 : 











import socket 


class EchoHandler 


(StreamRequestHandler ) : 
# Optional settings (defaults shown) 


timeout = 5 # Timeout on all socket 


rbufsize = -1 # Read buffer size 
wbufsize = 0 # Write buffer size 
disable _nagle_algorithm = False # Sets TCP_NODELAY s 
def 
handle(self): 
print 


('Got connection from', self.client_address) 
try 


for 


line in 


self.rfile: 
# self.wfile is a file-like object for writing 


self .wfile.write(line) 
except 


socket.timeout: 
print 


('Timed out!') 











最 后 ， 应 该 要 指出 的 是 大 部 分 Python 中 的 高 级 
网 络 模块 (例如 HTTP、XML-RPC 等 ) 都 是 在 





socketserver 的 功能 之 上 构建 的 。 也 就 是 说 ， 直 接 使 
用 socket 库 来 实现 服务 器 也 并 不 会 太 困 难 。 下 面 这 
六 人 简单 的 示例 束 是 直接 通过 socket 来 编写 服务 器 程 
序 : 











from Socket Import 


socket, AF_INET, SOCK_STREAM 
def 


echo_handler(address, client_sock): 
print 


('Got connection from {}'.format(address) ) 
while 


True: 
msg = client_sock.recv(8192) 
if not 


msg: 
break 


client_sock.sendall(msg) 
client_sock.close() 


def 


echo_server(address, backlog=5): 
sock = socket(AF_INET, SOCK_STREAM) 
sock. bind(address) 
sock. listen(backlog) 
while 


True: 
client_sock, client_addr = sock.accept() 
echo_handler(client_addr, client_sock) 


if 


_name == ' main __': 


echo_server(('', 20000) ) 





11.3 创建 一 个 UDP 有 服务器 
11.3.1 问题 


我 们 想 实现 一 个 采用 UDP 协议 同 客户 端 进行 通 
fA HY IRA a8 o 


11.3.2 解决 方案 
同 TCP 一 样 ， 利 用 socketserver 库 也 能 很 容易 地 


创建 出 UDP 服务 器 。 比 如， 下 面 有 一 个 简单 的 时 间 
服务 器 程序 : 





from socketserver import 


BaseRequestHandler, UDPServer 
import time 


class TimeHandler 
(BaseRequestHandler ): 
def 


handle(self): 
print 


('Got connection from', self.client_address) 
# Get message and client socket 


msg, sock = self.request 
resp = time.ctime() 
sock.sendto(resp.encode('ascii'), self.client_address) 


if 


_name == ' main _ 


serv = UDPServer(('', 20000), TimeHandler ) 
serv.serve_forever() 





同上 一 节 类 似 ， 这 里 需要 定义 一 个 特殊 的 处 理 
类 ， 其 中 要 实现 一 个 handle() 方 法 来 处 理 客 户 端的 





连接 。 这 里 的 request 属 性 是 一 个 元 组 ， 包 含 了 这 个 
服务 絮 收 到 的 数据 报 以 及 代表 底层 的 socket 对 象 。 
client _address 包 含 的 是 客户 端的 地 址 。 


要 测试 这 个 服务 器 程序 ， 先 运行 上 面 的 脚本 ， 
然后 另外 打开 一 个 Python 进程 并 向 服务 端 程序 发 送 
消息 : 














>>> from Socket Import 


socket, AF_INET, SOCK_DGRAM 
>>> s = socket(AF_INET, SOCK_DGRAM) 
>>> s.sendto(b'', ('localhost', 20000) ) 


0 

>>> s.recvfrom(8192) 

(b'Wed Aug 15 20:35:08 2012', ('127.0.0.1', 20000) ) 
>>> 





11.3.3 ”讨论 


一 个 典型 的 UDP 服务 器 程序 会 接收 到 发 目 客 户 
mm Nate GEE) 以 及 客户 端的 地 址 。 如 有 果 服 务 
谓 要 啊 应 请 求 ， 它 束 有 友 回 一 个 数据 报 给 客户 端 。 对 
于 数据 报 的 发 送 和 传输 ， 应 该 使 用 socket 对 象 的 
sendto0 和 recvfrom() 方 法 。 尽 管 传 统 的 send0 和 
recv(0) 方 法 也 能 工作 ， 但 是 在 UDP 通信 中 前 面 两 种 
方法 更 为 常用 一 些 。 


由 于 UDP 通信 底层 不 需要 建立 连接 ， 因 此 UDP 
服务 喜 音 背 比 TCP 服 务 堪 要 容易 编写 得 多 。 但 是 同 
时 UDP 也 是 不 可 靠 的 (例如 ， 由 于 没有 建立 连接 ， 
消息 可 能 会 丢失 ) 。 因 此 ， 如 何 处 理 消息 丢失 的 任 
务 束 交 给 了 你 自己 。 这 个 主题 超出 了 本 书 的 范围 ， 
但 是 如 果 可 靠 性 对 于 你 的 程序 来 说 很 重要 ， 一 般 来 
说 就 要 引入 序列 号 、 重 传 、 超 时 以 及 其 他 的 机 制 来 
确保 传输 的 可 靠 性 。UDP 常 用 在 对 可 靠 性 传输 要 求 
不 那么 高 的 应 用 中 。 例 如 ， 在 类 似 多 媒体 流 应 用 以 
及 游戏 中 常会 用 到 UDP， 因 为 在 这 类 应 用 中 根本 不 
会 倒退 回去 试图 重 传 某 个 丢失 的 数据 包 CER fal 




















单 地 忽略 丢弃 的 包 ， 然 后 继续 运行 ) 


_UDPServer 关 FRAN, Kee 
能 处 理 一 个 请 求 。 在 实践 中 ， we STOP 
接 相 比 要 小 很 多 但 是 如 果 要 实现 并 发 操作 ， 可 以 
实例 化 ForkingUDPServer 或 者 
ThreadingUDPServer: 








from socketserver import 


ThreadingUDPServer 


if 


_hname == ' main _': 
serv = ThreadingUDPServer(('',20000), TimeHandler) 
serv.serve_forever() 





直接 通过 socket 来 实现 UDP 服务 器 同样 也 不 复 
Ao ANION TF: 





from socket import 


socket, AF_INET, SOCK_DGRAM 
import time 


def 


time_server(address): 
sock = socket(AF_INET, SOCK_DGRAM) 
sock.bind(address) 
while 


True: 
msg, addr = sock.recvfrom(8192) 
print 


('Got message from', addr) 
resp = time.ctime() 
sock.sendto(resp.encode('ascii'), addr) 


if 


_name == ' | main__': 
time_server(('', 20000) ) 





11.4 ”从 CIDR 地 址 中 生成 IP 地 址 的 
Ww, 


11.4.1 问题 


我 们 有 一 个 类 似 于 “123.45.67.89/27” 这 样 的 
CIDR (Classless InterDomain Routing) 网 络 地 址 ， 
我 们 想 生 成 由 该 地 址 可 表示 的 全 部 IP 地 址 的 范 

(fil 
Qn, “123.45.67.64”,“123.45.67.65”..., “123.45.67.95” 


11.4.2 ”解决 方案 


利用 ipaddress 模 块 可 轻松 处 理 这 样 的 计算 。 示 
例如 下 : 








>>> import ipaddress 


>>> net = ipaddress.ip_network('123.45.67.64/27' ) 
>>> net 

IPv4Network('123.45.67.64/27' ) 

>>> for 


a in 


net: 


print 


(a) 


123.45.67.64 
123.45.67.65 
123.45.67.66 
123.45.67.67 
123.45.67.68 


123.45.67.95 
>>> 


>>> net6 = ipaddress.ip_ network('12:3456:78:90ab:cd:ef01:23:30/1 
>>> net6 

IPv6Network('12:3456:78:90ab:cd:ef01:23:30/125' ) 

>>> for 


neté6: 


print 


(a) 


12:3456:78:90ab:cd:ef01:23:30 
12:3456:78:90ab:cd:ef01:23:31 
12:3456:78:90ab:cd:ef01:23:32 
12:3456:78:90ab:cd:ef01:23:33 
12:3456:78:90ab:cd:ef01:23:34 
12:3456:78:90ab:cd:ef01:23:35 
12:3456:78:90ab:cd:ef01:23:36 
12:3456:78:90ab:cd:ef01:23:37 





networkxy 4 le] FF tH Se FB AB EY ZX S| BE 
作 。 示 例如 下 : 


>>> net.num_addresses 

32 

>>> net[0] 
IPv4Address('123.45.67.64' ) 
>>> net[1] 
IPv4Address('123.45.67.65' ) 
>>> net[-1] 
IPv4Address('123.45.67.95' ) 
>>> net[-2] 
IPv4Address('123.45.67.94' ) 
>>> 





此 外 ， 还 可 以 执行 检查 成 员 归 属 的 操作 : 





>>> a = ipaddress.ip_address('123.45.67.69' ) 
>>> a in 


net 

True 

>>> b = ipaddress.ip_address('123.45.67.123') 
>>> b in 


net 
False 
>>> 


IP 地 址 加 上 网 络 号 可 以 用 来 指定 一 个 IP 接 口 
(interface) 。 比 如 : 


>>> inet = ipaddress.ip_interface('123.45.67.73/27' ) 
>>> inet.network 

IPv4Network('123.45.67.64/27' ) 

>>> inet.i 


p 
IPv4Address('123.45.67.73') 
>>> 





11.4.3 ”讨论 


ipaddress 模 块 中 有 一 些 类 可 用 来 表示 IP 地 址 、 
网 络 对 象 以 及 接口 。 如 采 要 编写 代码 以 茶 种 方式 来 
操作 网 络 地 址 的 话 《〈 比 如 解析 、 打 印 、 验 证 等 ) ， 
这 残 显 得 非常 有 帮助 了 。 


需要 注意 的 是 ，ipaddress 模 块 同 其 他 网 络 相关 
的 模块 比如 socket 库 之 间 的 交互 是 有 局 限 性 的 。 特 
别 是 ， 通 常 不 能 用 IPv4Address 的 实例 作为 地 址 字符 
串 的 蔡 代 。 相 反 ， 必 须 显 式 地 通过 str() 将 其 转换 为 














字符 串 。 示 例如 下 : 


>>> a = ipaddress.ip_address('127.0.0.1') 
>>> from socket import 


socket, AF_INET, SOCK_STREAM 
>>> s = socket(AF_INET, SOCK_STREAM) 
>>> s.connect((a, 8080) ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: Can't convert 'IPv4Address' object to str implicitly 
>>> s.connect((str(a), 8080) ) 
>>> 





请 参阅 “ipaddress 模 块 介 
绍 ”(http:/docs.python.org/3/howto/ipaddress.html ) 
一 文 ， 以 获得 更 多 的 信息 和 高 级 用 法 的 示例 。 








11.5 创建 其 于 REST 风 格 的 简单 接 
口 


11.5.1 问题 


我 们 希望 通过 一 个 基于 REST 风 格 的 简单 接口 
来 对 程序 实现 远程 控制 或 交互 。 但 是 ， 我 们 又 不 想 
为 此 去 安装 一 个 成 熟 的 Web 编 程 框架 。 


11.5.2 解决 方案 


构建 基于 REST 风 格 的 接口 最 简单 的 方式 之 一 
就 是 根据 WSGI 规 范 〈 在 PEP 3333 中 描述 ， 地 址 
为 http://www.python.org/dev/peps/pep-3333 ) 创建 
一 个 小 型 的 库 。 示 例如 下 : 








# resty.py 


import cgi 


notfound_404(environ, start_response): 
start_response('404 Not Found', [ ('Content-type', 'text/pla 
return 


[b'Not Found' ] 


class PathDispatcher 


def 


__ init__(self): 
self.pathmap = { } 


def 


_Ccall (self, environ, start_response): 
path = environ[ 'PATH_INFO' | 
params = cgi.FieldStorage(environ[ 'wsgi.input'], 
environ=environ) 
method = environ[ 'REQUEST_METHOD' ]. lower () 
environ['params'] = { key: params.getvalue(key) for 


key in 


params } 
handler = self.pathmap.get((method, path), notfound_404) 


return 
handler(environ, start_response) 
def 
register(self, method, path, function): 


self.pathmap[method.lower(), path] = function 
return 


function 
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即 可 ， 比 如 : 





import time 


_hello_resp = '''\ 


<html> 
<head> 
<title>Hello {name}</title> 
</head> 
<body> 
<hi>Hello {name}!</h1> 
</body> 
</html>''' 


def 
hello_world(environ, start_response): 
start_response('200 OK', [ ('Content-type', 'text/html1' )]) 
params = environ['params' ] 
resp = _hello_resp.format(name=params.get('name' ) ) 
yield 
resp.encode('utf-8') 


_localtime_resp = '''\ 


<?xml version="1.0"?> 

<time> 
<year>{t.tm_year }</year> 
<month>{t.tm_mon}</month> 
<day>{t.tm_mday}</day> 
<hour>{t.tm_hour }</hour> 
<minute>{t.tm_min}</minute> 
<second>{t.tm_sec}</second> 

</time>''' 


def 


localtime(environ, start_response): 
start_response('200 OK', [ ('Content-type', 'application/xml 
resp = _localtime_resp.format(t=time.localtime()) 
yield 


resp.encode('utf-8' ) 


if 


__name__ == '__main__': 
from resty import 


PathDispatcher 
from wsgiref.simple_server import 
make_server 


# Create the dispatcher and register functions 


dispatcher = PathDispatcher() 
dispatcher.register('GET', '/hello', hello_world) 
dispatcher.register('GET', '/localtime', localtime) 


# Launch a basic server 


httpd = make_server('', 8080, dispatcher ) 
print 


('Serving on port 8080...') 
httpd.serve_forever() 
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用 urllib 来 完成 交互 。 示 例如 下 : 





>>> u = urlopen('http://localhost :8080/hello?name=Guido' ) 
>>> print 


(u.read().decode('utf-8')) 
<html> 
<head> 
<title>Hello Guido</title> 
</head> 
<body> 
<hi>Hello Guido! </h1> 
</body> 
</html> 
>>> u = urlopen('http://localhost:8080/localtime' ) 
>>> print 


(u.read().decode('utf-8')) 
<?xml version="1.0"?> 
<time> 
<year>2012</year> 
<month>11</month> 
<day>24</day> 
<hour>14</hour> 
<minute>49</minute> 


<second>17</second> 
</time> 
>>> 


11.5.3 phir 


在 基于 REST 风 格 的 接口 中 ， 一 般 来 说 就 是 在 
编写 啊 应 常见 HTTP 请 求 的 程序 。 但 是 ， 与 一 个 成 
熟 的 网 站 不 同 ， 通 常 我 们 只 是 在 来 回 推送 数据 。 这 
个 数据 可 能 会 以 各 种 标准 的 格式 进行 编码 ， 比 如 
XML、JSON 或 者 CSV。 尽 管 看 起 来 似乎 微 不 足 
道 ， 但 是 以 这 种 方式 提供 API 对 于 各 种 各 样 的 应 用 
程序 都 是 非常 有 用 的 。 


比如 ， 长 时 间 运 行 的 程序 可 能 会 用 REST 风 格 

的 API 来 实现 监控 或 诊断 功能 。 大 数据 应 用 可 以 使 
用 REST 风 格 的 接口 来 构建 一 个 查询 /提取 数据 的 系 
统 。REST 甚 至 可 以 用 来 控制 硬件 设备 ， 比 如 机 器 

人 、 传 感 器 或 者 是 灯泡 。 此 外 ，REST API 在 各 式 

各 样 的 客户 端 编程 环境 中 都 得 到 了 很 好 的 文 持 ， 比 
如 JavaScript、Android、iOS 等 。 因 此 ， 有 了 这 样 的 
fe BE BC AIF A HB SR YA RKE H R 
的 接口 代码 。 


要 实现 一 个 简单 的 REST 风 格 的 接口 ， 通 常 只 
































要 根据 Python 的 WSGI 标 准 来 做 就 可 以 了 。 标 准 库 
是 文 持 WSGI 的 ， 而 且 大 多 数 第 三 方 的 web 框架 也 
支持 。 因 此 ， 如 果 采 用 WSGI 标 准 的 话 ， 我 们 的 代 
人 码 使 用 起 来 将 变 得 非常 灵活 。 


在 WSGI 中 ， 应 用 程序 是 以 一 个 接受 如 下 调用 
形式 的 可 调用 对 象 来 实现 的 : 








import cgi 


def 


wsgi_app(environ, start_response): 








参数 environ 是 一 个 字典 ， 其 中 需要 包含 的 值 参 
考 了 许多 Web 服 务 器 比如 Apache 所 提供 的 CGI 接 口 
的 启发 。 要 提取 出 不 同 的 字段 ， 可 以 编写 这 样 的 代 
码 来 实现 : 





def 


wsgi_app(environ, start_response): 
method = environ[ 'REQUEST_METHOD' ] 
path = environ[ 'PATH_INFO' | 


# Parse the query parameters 


params = cgi.FieldStorage(environ[ 'wsgi.input'], environ=env 





示例 中 展示 了 一 些 和 常见 的 值 。 
environ['REQUEST_METHOD'] 表 示 请 求 的 类 型 
(例如 GET、POST、HEAD 2) 。 
environ[PATH _INFO"] 表 示 所 请 求 资 源 的 路 径 。 调 








用 cgi.FieldStorage() 可 以 从 请 求 中 提取 出 所 提供 的 查 
询 参数 ， 并 将 它们 放 入 到 一 个 类 似 于 字典 的 对 象 中 
以 供 稍 后 使 用 。 

参数 start_response 古 一 个 函数 ， 必 须 调 用 它 才 
能 发 起 啊 应 。start_response 有 的 第 一 个 参数 是 HTTP 结 


条 状态 。 第 二 个 参数 是 一 个 元 组 序列 ， 以 ame， 
value) 这 样 的 形式 组 成 啊 应 的 HTTP 头 。 示 例如 下 : 


def 


wsgi_app(environ, start_response): 


start_response('200 OK', [('Content-type', 'text/plain')]) 





要 返回 数据 ， 满 足 WSGI 规 范 的 应 用 程序 必须 
返回 字 市 串 序列 。 这 可 以 通过 使 用 一 个 列表 来 完 
成 : 


def 


wsgi_app(environ, start_response): 


start_response('200 OK', [('Content-type', 'text/plain')]) 
resp = [] 
resp.append(b'Hello World\n 


resp.append(b'Goodbye!\n 


return 





此 外 ， 也 可 以 使 用 yield 作 为 蔡 代 方案 : 





def 


wsgi_app(environ, start_response): 


start_response('200 OK', [('Content-type', 'text/plain')]) 
yield 


b'Hello World\n 


yield 


b'Goodbye! \n 
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先 将 其 编码 为 字 市 形式 。 当 然 了 ， 这 里 并 没有 要 求 
返回 的 结果 是 文本 ， 因 此 可 以 轻松 编写 一 个 应 用 程 
序 来 生成 图 像 。 


尽管 遭 循 WSGI 规 范 的 应 用 程序 通常 都 被 定义 
为 函数 ， 束 如 我 们 的 示例 那样 ， 但 是 类 实例 同样 也 
是 可 行 的 ， 只 要 它 实 现 了 合适 的 _ call 0 方法 即 
可 。 示 例如 下 : 




















class WSGIApplication 


def 


__ init__(self): 


def 


__call__(self, environ, start_response) 
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PathDispatcher38&. ix Was A Hirst Ss 

典 ， 用 来 将 方法 和 路 径 的 映射 关系 传递 给 处 理 函 

数 ， 除 此 之 外 什么 都 不 做 。 当 有 请 求 到 来 时 ， 提 取 
出 方法 和 路 径 然 后 将 其 分 上 用 给 一 个 处 理 函 数 。 此 

外 ， 任 何 得 询 变 量 都 会 得 到 解析 并 放 入 到 字典 中 以 
enViron[params'] 的 形式 保存 〈 这 个 步骤 非常 弟 见 ， 

为 了 避免 产生 大 量 午 复 的 代码 ， 在 调度 器 中 统一 处 
理 是 很 有 意义 的 )。 


要 使 用 这 个 调度 器 ， 只 要 创建 一 个 实例 并 注册 
各 种 基于 WSGI 风 格 的 应 用 程序 函数 到 调度 器 中 即 
可 ， 职 像 本 节 示 例 中 的 那样 。 编 写 这 些 函 数 应 该 是 
非常 直接 的 ， 只 要 遵循 start_responseO 函 数 的 规则 
并 且 以 字 节 串 作 为 输出 即 可 。 


当 编 写 这 样 的 函数 时 ， 对 于 字符 串 横 板 的 使 用 
需要 特别 小 心 。 没 人 喜欢 和 一 堆 由 print() 函 数 、 
XML 以 及 各 式 各 样 的 格式 化 操作 杂 揉 在 一 起 的 代码 
打交道 。 在 我 们 的 解决 方案 中 ， 采 用 的 方式 是 定义 



































三 引号 式 的 字符 串 模 极 然 后 在 内 部 使 用 。 这 种 方式 
使 得 之 后 修改 输出 的 格式 变 得 更 加 人 简单 了 (只 要 修 
改 模 板 即 可 ， 而 不 用 到 处 去 修改 代码 ) 。 


最 后 ， 使 用 WSGI 的 一 个 重要 因 系 就 是 实现 中 
没有 任何 部 分 是 特定 于 某 个 具体 的 Web 服 务 右 的 。 
这 正 是 WSGI 规 范 所 代表 的 全 部 意义 由 于 WSGI 
是 与 服务 器 以 及 框架 无 关 的 ， 我 们 应 该 可 以 将 目 己 
的 应 用 程序 部 署 到 各 式 各 样 的 服务 器 之 上 。 在 本 
中 ， 可 以 使 用 下 面 的 代码 来 测试 : 

















if 


__name__ == ' main  ， 
from wsgiref.simple_server import 


make_server 
# Create the dispatcher and register functions 
dispatcher = PathDispatcher() 


# Launch a basic server 


httpd = make_server('', 8080, dispatcher ) 
print 


('Serving on port 8080...') 


httpd.serve_forever() 


这 样 会 创建 出 一 个 简单 的 服务 器 ， 可 以 用 它 来 
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WSGI 被 有 音 设 计 为 功能 最 简化 的 规范 。 比 
如 ， 它 不 提供 任何 类 似 认 证 、cookies、 重 定 同 等 局 
级 功能 的 支持 。 这 些 功 能 由 你 目 己 实现 并 不 算 困 
难 。 但 是 ， 如 果 想 得 到 更 多 的 支持 ， 可 以 考虑 一 些 
第 三 方 的 库 ， 比 如 WebOb (http://webob.org ) 或 者 
Paste Chttp://pythonpaste.org ) 。 




















11.6 ”利用 XML-RPC 实 现 简 单 的 
元 病 过 程 调 用 
11.6.1 问题 


我 们 硕 户 能 有 一 种 简单 的 方法 可 以 在 远 端 机 器 
运行 的 Python 程序 中 执行 函数 或 者 方法 。 


11.6.2 解决 方案 


也 许 实现 一 个 远 端 过 程 调 用 机 制 最 简单 的 方式 
束 是 使 用 XML-RPC 了。 下 和 面 这 个 例子 给 出 了 一 个 
简单 的 服务 器 ， 其 中 实现 了 键 一 值 对 的 存储 : 





from xmlrpc.server import 


SimpleXMLRPCServer 


class KeyValueServer 


_rpc_methods_ = ['get', 'set', 'delete', 'exists', 'keys'] 
def 





__init__(self, address): 
self. data = {} 
self. serv = SimpleXMLRPCServer(address, allow_none=True 


for 
name in 
self. rpc_methods_: 
self. _serv.register_function(getattr(self, name) ) 


def 


get(self, name): 
return 


self. _data[name | 
def 
set(self, name, value): 
self. _data[name] = value 


def 


delete(self, name): 
del 


self. _data[name | 


def 


exists(self, name): 
return 


name in 


self. data 


def 


keys(self): 
return 
list(self. data) 
def 
serve_forever(self): 
self._serv.serve_forever() 


# Example 


if 


_hname == ' main__': 
kvserv = KeyValueServer(('', 15000) ) 
kvserv.serve_forever() 
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>>> from xmirpc.client import 


ServerProxy 

>>> S = ServerProxy('http://localhost:15000', allow_none=True) 
>>> s.set('foo', 'bar') 

>>> s.set('spam', [1, 2, 3]) 

>>> s.keys() 

['spam', 'foo'] 

>>> s.get('foo') 


'bar' 

>>> s.get('spam') 
[1, 2, 3] 

>>> s.delete('spam' ) 
>>> s.exists('spam' ) 
False 

>>> 





11.6.3 ”讨论 





要 配置 一 个 简单 的 远 问 过 程 调用 服务 ， 可 以 用 
XML-RPC 来 轻松 实现 。 所 有 要 做 的 就 是 创建 一 个 
服务 器 实例 ， 通 过 register_function(0) 方 法 注册 处 理 
函数 ， 然 后 通过 serve_forever0) 方 法 加 载 即 可 。 本 贡 
给 出 的 示例 把 所 有 的 代码 集合 到 了 一 起 ， 将 这 些 步 
又 打包 到 了 一 个 类 中 ， 但 是 实际 上 并 没有 这 个 便 性 
要 求 。 比 如 ， 我 们 可 以 创建 一 个 这 样 的 服务 器 : 





from xmlrpc.server import 


Simp1leXMLRPCServer 
def 


add(x,y): 
return 


x+y 


serv = SimpleXMLRPCServer(('', 15000)) 


serv.register_function(add) 
serv.serve_forever() 





通过 XML-RPC 暴 露出 的 函数 只 能 处 理 几 种 特 
定 类 型 的 数据 ， 比 如 字符 串 、 数 字 、 列 表 和 字典 。 
至 于 其 他 类 型 的 数据 则 需要 做 进一步 的 研究 。 比 方 
说 ， 如 果 通 过 XML-RPC 传 递 一 个 实例 ， 则 只 有 它 
的 实例 字典 会 被 处 理 : 





>>> class Point 


def 


__init__(self, x, y): 
self.x = x 


self.y = y 


>>> p = Point(2, 3) 
>>> s.set('foo', p) 
>>> s.get('foo' ) 
{2 SY et 


| 


同样 地 ， 对 三 进 制 数 据 的 处 理 也 和 我 们 期 望 的 
方式 有 所 不 同 : 


>>> s.set('foo', b'Hello World') 

>>> s.get('foo') 

<xmlrpc.client.Binary object at 0x10131d410> 
>>> _.data 


b'Hello World' 
>>> 





作为 一 般 的 规则 ， 不 应 该 将 XML-RPC 服 务 作 
为 公有 API 桑 露 给 外 部 世界 。 通 遂 ， 最 佳 应 用 场景 
是 在 内 部 网 络 中 ， 我 们 可 以 编写 涉及 几 台 不 同 机 占 
的 简单 的 分 布 式 应 用 程序 。 


XML-RPC 的 缺点 在 于 它 的 性 能 。 
SimpleXMLRPCServer 是 以 单线 程 来 实现 的 ， 尽 管 
可 以 通过 11.2 节 所 示 的 方法 配置 为 以 多 线程 方式 运 
行 ， 但 还 是 不 适合 用 来 扩展 大 型 的 应 用 。 此 外 ， 由 
于 XML-RPC 会 将 所 有 的 数据 序列 化 为 XML 格式 ， 
因此 惑 会 比 其 他 的 方法 要 慢 一 些 。 但 是 ， 这 种 编码 
的 优势 在 于 许多 其 他 的 编程 语言 都 能 够 理解 。 使 用 
XML-RPC 的 话 ， 客 户 端 程序 承 可 以 采用 Python 之 外 
的 语言 来 编写 ， 同 样 可 以 访问 你 的 服务 。 


























抛 开 XML-RPC 的 局 限 性 不 说 ， 如 果 需 要 以 快 
速 但 并 不 完善 (guick and dirty) 的 方式 实现 一 个 远 
问 过 程 调用 系统 ， 那 么 了 解 一 下 XML-RPC 还 是 很 
值得 的 。 很 多 时 候 人 简单 的 方案 束 已 经 足够 好 了 。 
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11.7.1 问题 
我 们 正 运行 着 多 个 Python 解释 器 的 实例 ， 有 可 


能 还 是 在 不 同 的 机 左上。 我 们 想 通 过 消息 在 不 同 的 
解释 大 之 间 交 换 数 据 。 








11.7.2 解决 方案 

如 果 使 用 multiprocessing.connection 模 块 ， 那 么 
在 不 同 的 解释 器 之 间 实 现 通 信和 就 很 简单 了 。 下 面 是 
一 个 实现 了 echo 服 务 的 简单 示例 : 





from multiprocessing.connection import 


Listener 
import traceback 


def 


echo_client(conn): 
try 


while 


True: 
msg = conn.recv() 
conn.send(msg) 
except EOFError 


print 


('Connection closed' ) 
def 
echo_server(address, authkey): 


serv = Listener(address, authkey=authkey) 
while 


True: 
try 


client = serv.accept() 
echo_client(client ) 
except Exception 


traceback.print_exc() 


echo_server(('', 25000), authkey=b'peekaboo' ) 
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>>> from multiprocessing.connection import 


Client 

>>> c = Client(('localhost', 25000), authkey=b'peekaboo' ) 
>>> c.send('hello' ) 

>>> c.recv() 

"hello' 

>>> c.send(42) 

>>> c.recv() 

42 

>>> c.send([1, 2, 3, 4, 5]) 
>>> c.recv() 

[1, 2, 3, 4, 5] 

>>> 





和 低级 的 socket 不 同 ， 这 里 所 有 的 消息 都 是 完 
整 无 损 的 《每 个 由 send0 发 送 的 对 象 都 会 通过 recv() 
完整 地 接收 到 ) 。 上 此外， 对象 都 是 通过 pickle 来 进 
行 序列 化 的 。 因 此 ， 任 何 同 pickle 兼 容 的 对 象 都 可 
以 在 连接 之 间 传 递 和 接收 。 








11.7.3 ”讨论 


AE BAP EL ASM, SP SB E 
递 ， 比 如 ZeroMQ 、Celery 等 。 作 为 备用 方案 ， 我 们 
可 能 也 会 倾 同 于 在 底层 的 socket 之 上 实现 一 个 消 忆 
层 。 但 是 ， 有 时 候 我 们 只 想 要 一 个 简单 的 解决 方 
案 。multiprocessing.connection 库 正 是 我 们 所 需要 的 
只 需要 使 用 几 个 简单 的 原 语 (primitive〉， 整 











能 轻易 地 将 各 个 解释 器 联系 在 一 起 并 旦 在 它们 之 间 
交换 消息 。 

如 果 知 道 这 些 解释 右 会 运行 在 同一 台 机 右上 ， 
那么 可 以 利用 网 络 作 为 蔡 代 方案 ， 比 如 UNIX 域 
socket 或 者 Windows 上 的 命名 管道 。 要 通过 UNIX 域 
socket 创建 连接 ， 只 要 简单 地 将 地 址 改 为 文件 名 即 
可 ， 示 例如 下 : 


s = Listener('/tmp/myconn', authkey=b'peekaboo' ) 


要 通过 Windows 命 名 管道 创建 连接 ， 可 以 使 用 
下 面 这 样 的 文件 名 : 


s = Listener(r'\\ 











.\pipe\myconn', authkey=b'peekaboo' ) 





作为 一 般 的 规则 ， 不 应 该 使 用 multiprocessing 
模块 来 实现 面 问 公众 型 的 服务 。 传 递 给 ClientO 和 
Listener() 的 参数 authkey 在 这 里 是 为 了 帮助 认证 连 
接 的 对 端 节 点 。 用 错误 的 密 钥 来 建立 连接 会 产生 姑 
弟 。 此 外 ， 这 个 模块 最 好 适用 于 能 长 时 间 运 行 的 连 
接 ( 而 不 是 大 量 的 短 连 接 ) 。 例 如 ， 两 个 解释 器 可 








能 会 在 开始 的 时 候 建 立 一 条 连接 ， 然 后 在 整个 过 程 
中 都 保持 这 个 连接 的 活跃 。 


如 采 需 要 对 连接 实现 更 多 的 底层 控制 ， 那 么 不 
不 要 使 用 multiprocessing 模 块 。 比 方 说 ， 如 果 要 文 
持 超 时 、 非 阻 终 IO 或 者 任何 类 似 的 特性 ， 那 么 最 
好 使 用 另 一 个 不 同 的 库 或 者 直接 在 socket 之 上 实现 
这 些 特性 。 








11.8 ”实现 远 问 过 程 调 用 
11.8.1 问题 


我 们 想 在 socket、multiprocessing.connection 或 
者 ZeroMQ 这 样 的 消息 传递 层 之 上 实现 简单 的 远 端 
过 程 调用 (RPC) 。 


11.8.2 解决 方案 


通过 将 函数 请 求 、 参 数 以 及 返回 值 用 pickle 进 
行 编 码 ， 人 然后 在 解释 右 之 间 传 圳 编码 过 的 pickle 子 
市 串 ，RPC 是 很 容易 实现 的 。 下 面 的 示例 是 一 个 简 
单 的 RPC 处 理 例 程 ， 可 以 将 其 纳入 到 一 个 服务 需 程 
序 中 使 用 。 











# rpcserver.py 


import pickle 


class RPCHandler 


def 


__ init__(self): 
self._functions = { } 


def 
register_function(self, func): 
self. _functions[func. name |] = func 


def 


handle_connection(self, connection): 
try 


while 


True: 
# Receive a message 


func_name, args, kwargs = pickle.loads(connectio 
# Run the RPC and send a response 


try 


r = self._functions[func_name](*args, **kwarg 
connection.send(pickle.dumps(r) ) 
except Exception as 


connection.send(pickle.dumps(e) ) 
except EOFError 


pass 


要 使 用 这 个 处 理 例 程 ， 需 要 将 其 添加 到 一 个 消 
恩 服 务 器 中 。 这 里 我 们 可 以 有 多 种 选择 ， 但 相 较 而 
言 multiprocessing 库 是 一 种 简单 的 选择 。 下 面 是 RPC 
服务 器 的 示例 : 


from multiprocessing.connection import 


Listener 
from threading import 


Thread 


def 


rpc_server(handler, address, authkey): 
sock = Listener(address, authkey=authkey) 
while 


client = sock.accept() 

t = Thread(target=handler.handle_connection, args=(clien 
t.daemon = True 

t.start() 





# Some remote functions 


def 


add(x, y): 
return 


sub(x, y): 
return 


# Register with a handler 


handler = RPCHandler( ) 
handler.register_function(add) 
handler.register_function(sub) 


# Run the server 


rpc_server(handler, ('localhost', 17000), authkey=b'peekaboo' ) 











BAK ae vin AY Pig HG PA SARS a Ti BEG 
建 一 个 相应 的 RPC 代 理 闫 来 转 肥 请求。 示例 如 下 : 


import pickle 


class RPCProxy 


def 


__init__(self, connection): 
self. connection = connection 
def 


__getattr__(self, name): 
def 


do_rpc(*args, **kwargs): 


self. _connection.send(pickle.dumps((name, args, kwar 
result = pickle.loads(self. connection.recv() ) 
if 


isinstance(result, Exception 


result 
return 


result 
return 





要 使 用 这 个 代理 类 ， 只 需要 用 它 来 包 萎 及 送 给 
服务 器 端的 连接 即 可 。 示 例如 下 : 





>>> from multiprocessing.connection import 


Client 

>>> c = Client(('localhost', 17000), authkey=b'peekaboo' ) 
>>> proxy = RPCProxy(c) 

>>> proxy.add(2, 3) 

5 

>>> proxy.sub(2, 3) 

-1 


>>> proxy.sub([1, 2], 4) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "rpcserver.py", line 37, in do_rpc 
raise 


result 
TypeError: unsupported operand type(s) for -: ‘list' and ‘int' 
>>> 





应 该 指出 的 是 ， 有 许多 消息 处 理 层 《比如 
multiprocessing) 已 经 用 pickle 将 数据 做 了 序列 化 处 
理 。 如 果 是 这 样 的 话 ， 可 以 去 反对 pickle.dumpsO 和 
pickle.loadsO 的 调用 。 





11.8.3 ”讨论 





RPCHandler 和 RPCProxy 类 的 总 体 思 想 相 对 来 
说 都 是 比较 简单 的 。 如 果 客 户 端 想 调用 一 个 远 闪 函 
数 ， 比 如 foo(1, 2, z=3)， 代 理 类 束 创 建 出 一 个 包含 
了 函数 名 和 参数 的 元 组 (foo', (1, 2), {Zz:3})。 这 个 元 
ee ee ae 这 些 

又 都 是 在 RPCProxy 类 __getattr_ (0) 方 法 返回 的 闭 
co rpc() HFT HY © ARS Aa an UAC BYE IS a FAT 
反 序 列 化 处 理 ， 然 后 检查 函数 名 是 否 已 经 注册 过 
了 。 如 果 是 注册 过 的 函数 ， 吏 用 给 定 的 参数 调用 该 
函数 。 把 得 到 的 结果 (或 者 异常 ) 进行 pickle 序 列 
化 处 理 然后 再 发 送 回去 。 


我 们 给 出 的 示例 依赖 于 multiprocessing 模 块 来 
完成 通信 。 但 是 ， 这 种 方法 也 适用 于 任何 其 他 的 消 
居 通 信和 系统 。 比 如 ， 如 果 想 在 ZeroMQ 上 实现 
RPC， 只 要 把 连接 对 象 用 适当 的 ZeroMQ socket 对 象 
取代 即 可 。 


关于 pickle 的 可 靠 性 ， 需 要 重点 考虑 
w 
使 得 在 执行 反 序列 化 处 理 时 得 以 执行 任意 的 函 
数 ) 。 特 别 是 ， 绝 对 不 能 允许 非 受信 任 或 者 非 授 权 
的 客户 端 执行 RPC 操 作 ， 我 们 肯定 不 希望 对 互联 网 
上 的 任何 机 器 都 馈 开 大 门 。 本 节 提 到 的 技术 应 该 只 
ee 不 要 暴露 给 
外 部 世界 。 


























作为 pickle 的 蕉 代 方 案 ， 我 们 可 能 会 考虑 使 用 
JSON、XML 或 一 些 其 他 的 数据 编码 来 完成 序列 化 
操作 。 比 如 ， 如 果 用 json.loadsO0 和 json.dumpsO 来 取 
代 本 节 中 的 pickle.loadsO0 和 pickle.dumpsO 的 话 ， 那 
么 就 可 以 轻松 应 用 JSON 编 码 了 。 示 例如 下 : 








# jsonrpcserver. py 


import json 


class RPCHandler 


def 
__init__(self): 
self._functions = { } 


def 


register_function(self, func): 
self. _functions[func.__name__] = func 


def 


handle_connection(self, connection): 
try 


while 
True: 


# Receive a message 


func_name, args, kwargs = json.loads(connection. 
# Run the RPC and send a response 


try 


r = self._functions[func_name](*args, **kwarg 
connection.send(json.dumps(r) ) 
except Exception as 


connection.send(json.dumps(str(e))) 
except EOFError 


pass 


# jsonrpcclient.py 


import json 


class RPCProxy 


def 


__init__(self, connection): 
self. connection = connection 
def 


__getattr__(self, name): 
def 


do_rpc(*args, **kwargs): 


self. _connection.send(json.dumps((name, args, kwargs 
result = json.loads(self._connection.recv()) 
return 


result 
return 





FE SLEMRPCIS — A EE eS 8 AY) [a ET T 
应 该 如 何 处 理 ? 最 基本 的 要 求 是 如 果 调 用 某 个 方法 
NFO Se, IRS AHA ALC ART. (Ae, OU 
me aA PRAA m a OO Se 
如 果 正 在 使 用 pickle， 通 常 异 常 实 例会 经 过 序列 化 
处 理 之 后 再 在 客户 端 重新 抛 出 。 如 果 在 使 用 其 他 的 
编码 协议 ， 那 束 要 考虑 其 他 的 方法 了 。 至 少 ， 应 该 
在 啊 应 中 返回 异 背 信息 字符 串 。 上 面 使 用 JSON 编 
码 的 示例 采用 的 正 是 这 种 方式 。 



































有 关 RPC 实 现 的 另 一 个 例子 ， 看 看 在 XML- 
RPC 中 使 用 的 SimpleXMLRPCServer 和 和 ServerProxy 
类 的 实现 是 很 有 帮助 的 ， 我 们 在 11.6 节 已 经 描述 过 
Je 





11.9 DA fE BE IIT Ser UE Se PF vita A 
份 


11.9.1 问题 








我 们 希望 有 一 种 简单 的 方式 可 以 对 在 分 布 式 系 
统 中 连接 到 各 个 服务 器 上 的 客户 端 进行 身份 验证 ， 
但 是 又 不 想 使 用 像 SSL 那 样 的 复杂 组 件 。 
11.9.2 解决 方案 


我 们 可 以 利用 hmac 模 块 实现 一 个 握手 连接 来 达 
到 简单 且 高 效 的 寻 份 验证 目的 。 下 面 是 示例 代码 : 





import hmac 


import os 


def 


client_authenticate(connection, secret_key): 


def 


Authenticate client to a remote service. 


connection represents a network connection. 


secret_key is a key known only to both client/server. 


message = connection.recv(32) 

hash = hmac.new(secret_key, message) 
digest = hash.digest() 
connection.send(digest ) 


server_authenticate(connection, secret_key): 


mre 


Request client authentication. 


message = os.urandom(32) 
connection.send(message) 

hash = hmac.new(secret_key, message) 
digest = hash.digest() 

response = connection.recv(len(digest) ) 
return 


hmac.compare_digest(digest,response) 


尽 体 思 路 束 是 在 发 起 连接 时 ， 服 务 右 将 一 段 由 
随机 字 节 组 成 的 消 因 发 送 给 客户 问 ( 在 本 例 中 是 由 
os.urandom() 返 回 的 ) 。 客 户 端 和 服务 器 通过 hmac 
模块 以 及 双方 事先 都 知道 的 密 钥 计算 出 随机 数据 的 
加 密 hash。 客 户 并 发 送 它 计算 出 的 摘要 值 (digest) 
给 服务 器 ， 而 服务 器 对 摘要 值 进 行 比较 ， 以 此 来 决 
定 是 要 接受 还 是 拒绝 这 个 连接 。 


对 摘要 值 进行 比较 需要 使 用 
hmac.compare_digestO 函 数 。 这 个 函数 的 实现 可 如 
免 站 党 基于 时 序 分 析 的 攻击 (timing-analysis 
attack) ， 因 此 应 该 用 它 来 对 摘要 值 进行 比较 而 不 
能 用 普通 的 比较 操作 符 (==) 。 


要 使 用 这 些 图 数 ， 我 们 可 以 将 它们 合并 到 已 有 
的 有 关 网 络 或 消息 处 理 的 代码 中 。 比 如 ， 如 果 用 到 
了 socket， 服 务 器 病 的 代码 看 起 来 就 是 这 样 的 : 




















from socket import 


socket, AF_INET, SOCK_STREAM 


secret_key = b'peekaboo' 


def 


echo_handler(client_sock): 
if not 


server_authenticate(client_sock, secret_key): 
client_sock.close() 
return 


while 


True: 
msg = client_sock.recv(8192) 
if not 
msg: 
break 
client_sock.sendall(msg) 
def 


echo_server(address): 
S = socket(AF_INET, SOCK_STREAM) 
s.bind(address) 
s.listen(5) 
while 


True: 
c,a = s.accept() 
echo_handler(c) 


echo_server(('', 18000) ) 


| 
而 在 客户 疹 ， 则 可 以 这 样 处 理 : 


from socket Import 


socket, AF_INET, SOCK_STREAM 
secret_key = b'peekaboo' 


s = socket(AF_INET, SOCK_STREAM) 
s.connect(('localhost', 18000) ) 


client_authenticate(s, secret_key) 
s.send(b'Hello World' ) 
resp = s.recv(1024) 





11.9.3 ”讨论 


FEA TBE E RA ACE Re AE A Ps SA 
hmac 来 验证 身份 。 比 如 ， 如 果 正 在 编写 的 系统 需要 
实现 路 集群 的 多 进程 间 通 信 ， 吏 可 以 使 用 这 种 方法 
来 确保 只 有 获得 许可 的 进程 才能 互相 通信 。 事 实 
上 ， 在 multiprocessing 库 中 ， 当 同 子 进程 建立 通信 
时 在 内 部 也 是 使 用 的 基于 hmac 的 身份 验证 方式 。 


需要 重点 强调 的 是 ， 验 证 东 个 连接 和 加 密 连 接 
可 不 是 一 回 事 。 在 经 过 验证 的 连接 上 ， 后 续 的 通信 

















都 是 以 明文 友 送 的 ， 对 于 任何 企图 咒 探 流量 的 人 来 
Ui, REG abe PYLE OR re Sr UE HT ia AY 
钥 从 来 部 没有 传送 过 ) 。 


hmac 有 所 洒 用 的 映 份 验证 算法 是 基于 加 和 密 哈 名 疝 
数 的 ， 比 如 MD5 和 SHA-1， 这 些 算法 的 细节 描述 可 
以 在 IETF RFC 
2104 Chttp://tools.ietf.org/html/rfc2104.html ) Fk 
到 。 








11.10 ”为 网 络 服务 增加 SSL 支 持 
11.10.1 问题 


我 们 想 通 过 socket 实 现 一 个 网 络 服务 ， 要 求 服 
Fy ai Sing A Ae ig AY SE SSL SCP Pere, FF AL 
对 传输 的 数据 进行 加 密 。 


11.10.2 解决 方案 


ssl 模 块 可 以 为 底层 的 socket 连 接 添加 对 SSL 的 
支持 。 具 体 来 说 就 是 ssl.wrap_socket0O) 函 数 可 接受 一 
个 已 有 的 socket， 并 为 其 包装 一 个 SSL 层 。 比 方 说 ， 
下 面 的 示例 展示 了 一 个 简单 的 echo 服 务 ， 服 务 器 对 
发 起 连接 的 客户 端 提供 了 一 个 服务 器 证 书 : 














from socket Import 


socket, AF_INET, SOCK_STREAM 
import ssl 


KEYFILE = 'server_key.pem' # Private key of the server 


CERTFILE = 'server_cert.pem' # Server certificate (given to 


def 


echo_client(s): 


while 
True: 
data = s.recv(8192) 
if 
data == b'': 


break 


s.send(data) 
s.close() 
print 


('Connection closed' ) 


def 


echo_server(address): 
s = socket(AF_INET, SOCK_STREAM) 
s.bind(address) 
s.listen(1) 


# Wrap with an SSL layer requiring client certs 


s_ssl = ssl.wrap_socket(s, 
keyfile=KEYFILE, 
certfile=CERTFILE, 
server_side=True 


) 


# Wait for connections 


while 


True: 
try 


c,a = S_ssl.accept() 
print 


('Got connection', c, a) 
echo_client(c) 
except Exception as 


print 


('{}: {}'.format(e.__class__.__name__, e)) 





echo_server(('', 20000) ) 








FARER S A ime WH fA Ee 
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成 验证 。 





>>> from socket import 


socket, AF_INET, SOCK_STREAM 


>>> import ssl 


>>> s = socket(AF_INET, SOCK_STREAM) 
>>> s_ ssl = ssl.wrap_socket(s, 


cert_reqs=ssl.CERT_REQUIRED, 


ca_certs = 'server_cert.pem' ) 

>>> s_ssl.connect(('localhost', 20000) ) 
>>> s_ssl.send(b'Hello World?' ) 

12 

>>> s_ssl.recv(8192) 

b'Hello World?' 

>>> 





这 些 奔 层 的 socket 拉 巧 所 带 来 的 问题 在 于 ， 它 

们 无 法 和 已 经 通过 标准 库 实现 的 网 络 服 务 很 好 地 结 
合 在 一 起 。 比 方 说 ， 大 部 分 的 服务 器 端 代码 

(HTTP、XML-RPC 等 ) 实际 上 是 基于 socketserver 





库 来 实现 的 。 客 户 闫 代码 也 是 在 更 高 的 层面 上 来 实 
现 的 。 为 已 有 的 服务 添加 对 SSL 的 支持 是 可 以 实现 
的 ， 但 是 需要 的 方法 稍 有 不 同 。 

首先 ， 对 于 服务 器 端 来 说 可 以 通过 混入 类 
(mixin class) 来 添加 对 SSL 的 文 持 : 


import ssl 


class SSLMixin 


Mixin class that adds support for SSL to existing servers ba 


on the socketserver module. 


def 


__ init__(self, *args, 
keyfile=None, certfile=None, ca_certs=None, 
cert_reqs=ssl.NONE, 
**kwargs): 
self._keyfile = keyfile 


self. _certfile = certfile 
self._ca_certs = ca_certs 
self._cert_reqs cert_reqs 


Super().__init__(*args, **kwargs) 


def 


get_request(self): 
client, addr = super().get_request() 
client_ssl = ssl.wrap_socket(client, 
keyfile = self._keyfile, 


certfile self._certfile, 
ca_certs self._ca_certs, 
cert_reqs = self._cert_reqs 
server_side = True) 


return 


client_ssl, addr 





要 使 用 这 个 混入 类 ， 可 以 将 它 和 别 的 服务 器 类 
混合 在 一 起 使 用 。 比 如 ， 下 面 的 示例 定义 了 一 个 运 
行 在 SSL 之 上 的 XML-RPC 服 务 器 : 


# XML-RPC server with SSL 


from xmlrpc.server import 


SimpleXMLRPCServer 


class SSLSimpleXMLRPCServer 


(SSLMixin, SimpleXMLRPCServer ): 
pass 





下 面 的 XML-RPC 服 务 器 代码 取 自 11.6 节 ， 只 做 


了 些许 修改 以 文 持 SSL: 





import ssl 


from xmlrpc.server import 


SimpleXMLRPCServer 
from sslmixin import 


SSLMixin 
class SSLSimp1leXMLRPCServer 
(SSLMixin, SimpleXMLRPCServer ) : 


pass 


class KeyValueServer 


_rpc_methods_ = ['get', 'set', 'delete', 'exists', 'keys'] 
def 


__init__(self, *args, **kwargs): 
self. data = {} 
self. serv = SSLSimpleXMLRPCServer(*args, allow_none=Tru 
for 


name in 


self. _rpc_methods_ 


self._serv.register_function(getattr(self, 


def 


get(self, name): 
return 


self. _data[name | 
def 
set(self, name, value): 
self. _data[name] = value 


def 


delete(self, name): 
del 


self. _data[name | 


def 


exists(self, name): 
return 


name in 


self. data 


def 


keys(self): 
return 


name ) ) 


list(self. data) 


def 


serve_forever(self): 
self._serv.serve_forever() 


if 

_hname == ' main__': 
KEYFILE='server_key.pem' # Private key of the server 
CERTFILE='server_cert.pem' # Server certificate 


kvserv = KeyValueServer(('', 15000), 
keyfile=KEYFILE, 


certfile=CERTFILE) 
kvserv.serve_forever() 





要 使 用 这 个 服务 器 ， 可 以 利用 xmlrpc.dlient 模 
块 来 完成 连接 。 只 要 在 URL 中 指定 一 个 https: 即 可 。 
示例 如 下 : 





>>> from xmlrpc.client import 


ServerProxy 

>>> S = ServerProxy('https://localhost:15000', allow_none=True) 
>>> s.set('foo','bar') 

>>> s.set('spam', [1, 2, 3]) 

>>> s.keys() 

['spam', 'foo'] 


>>> s.get('foo') 


'þar ' 
>>> s.get('spam' ) 
[1, 2, 3] 


>>> s.delete('spam' ) 
>>> s.exists('spam' ) 
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行 额 外 的 步骤 来 验证 服务 器 证 书 ， 或 者 同 服务 器 展 
示 客 户 端的 凭证 〈 比 如 客户 端 证 书 ) >o EWE, 
似乎 并 没有 标准 的 方法 来 完成 这 些 任务 ， 因 此 各 负 
需要 做 一 点 研究 。 下 面 的 示例 展示 了 如 何 建立 一 条 
安全 的 XML-RPC 连 接 来 验证 服务 器 证 书 : 











from xmlrpc.client import 


SafeTransport, ServerProxy 
import ssl 


class VerifyCertSafeTransport 


(SafeTransport): 
def 


__ init__(self, cafile, certfile=None, keyfile=None): 
SafeTransport.__init__(self) 
self. _ssl_context = ssl.SSLContext(ssl.PROTOCOL_TLSv1) 
self. _ssl_context.load_verify_locations(cafile) 


if 


cert: 
self. _ssl_context.load_cert_chain(certfile, keyfile) 
self. _ssl_context.verify_mode = ssl.CERT_REQUIRED 
def 


make_connection(self, host): 


# Items in the passed dictionary are passed as keyword 


# arguments to the http.client.HTTPSConnection() constru 


# The context argument allows an ssl.SSLContext instance 


# be passed with information about the SSL configuration 


s = super().make_connection((host, {'context': self._ssl 


return 


S 


# Create the client proxy 


s = ServerProxy('https://localhost:15000', 
transport=VerifyCertSafeTransport('server_cert.p 
allow_none=True) 








我 们 前 面 给 出 的 解决 方案 中 是 由 服务 磊 冰 癌 客 
户 站 及 送 证 书 ， 然 后 客户 冰 来 验证。 其 实 ， 这 个 验 
证 步骤 可 以 在 两 个 方 网 上 进行 “ 即 ， 服 务 磺 到 客户 
i AP vig BU IRS o UFR AR ait AE BS Sor EA 
闹 ， 只 要 把 局 动 服务 占 的 代码 修改 为 如 下 形式 即 
可 : 





_hname == ' main__': 
KEYFILE='server_key.pem' # Private key of the server 


CERTFILE='server_cert.pem' # Server certificate 


CA_CERTS='client_cert.pem' # Certificates of accepted cl 


kvserv = KeyValueServer(('', 15000), 
keyfile=KEYFILE, 
certfile=CERTFILE, 
ca_certs=CA_CERTS, 
cert_reqs=ssl.CERT_REQUIRED, 
) 


kvserv.serve_forever() 





要 让 XML-RPC 客 户 端 发 出 上 自己 的 证 书 ， 需 要 


把 ServerProxy 的 初始 化 修改 为 如 下 方式 : 


# Create the client proxy 


s = ServerProxy('https://localhost:15000' 


transport=VerifyCertSafeTransport('server_cert. pe 
‘client_cert.p¢ 
‘client_key.pe 
allow_none=True) 





11.10.33 ”讨论 


要 让 本 节 中 提 到 的 技术 能 正常 运转 ， 这 对 于 我 
们 的 系统 配置 能 力 和 对 SSL 的 理解 都 将 是 一 场 考 
验 。 也 许 最 大 的 挑战 束 是 按 顺 序 获取 密 钥 的 初始 配 
置 、 证 书 以 及 其 他 一 些 相关 的 细节 。 


我 们 来 理 清 一 下 这 里 的 需求 ，SSL 连 接 的 每 个 
端点 一 般 来 说 都 有 一 个 私有 的 密 钥 和 一 个 签名 的 证 
书 文件 。 证 书 文件 中 包含 有 公有 和 密 钥 ， 在 每 个 连接 
中 会 发 送 给 对 端 节 点 。 对 于 面 癌 大 众 的 服务 ， 证 书 
一 般 会 由 证 书 授权 机 构 如 Verisign、Equifax 或 者 类 
似 的 组 织 《〈 需 要 付费 的 机 构 ) 来 签名 。 要 验证 服务 
右 问 的 证 书 ， 客 户 问 会 维护 一 个 文件 ， 其 中 包含 
受信 任 的 证 书 颁 发 机 构 所 发 布 的 证 书 。 比 方 说 ， 























Web 浏 览 器 维护 着 与 主要 的 证 书 颁 发 机 构 相 对 应 的 
证 书 ， 并 且 会 在 HTTPS 连 接 中 用 这 些 证 书 来 验证 由 
Web 服 务 器 发 送 过 来 的 证 书 的 完整 性 。 


为 了 验证 本 市 提 到 的 技术 ， 可 以 创建 一 个 被 称 
之 为 目 签 名 的 证 书 。 可 以 这 样 来 实现 : 








bash % openssl red -new -x509 -days 365 -nodes -out server_cert. 


-keyout server_key.pem 
Generating a 1024 bit RSA private key 
十 十 十 十 十 十 


.十 十 十 十 十 十 
writing new private key to 'server_key.pem' 


You are about to be asked to enter information that will be inco 
into your certificate request. 

What you are about to enter is what is called a Distinguished Na 
There are quite a few fields but you can leave some blank 

For some fields there will be a default value, 

If you enter '.', the field will be left blank. 


Country Name (2 letter code) [AU]:US 

State or Province Name (full name) [Some-State]:Illinois 
Locality Name (eg, city) []:Chicago 

Organization Name (eg, company) [Internet Widgits Pty Ltd]:Dabea 
Organizational Unit Name (eg, section) []: 

Common Name (eg, YOUR name) []:localhost 

Email Address []: 

bash % 








当 创建 证 书 时 ， 各 个 字段 的 全 第 第 是 随机 的 。 
但 是 ，“Common Name” 字 上 段 遂 常会 包 仿 DNS 服务器 


的 主机 名 。 如 果 只 是 在 目 己 的 机 器 上 做 下 测试 ， 可 
以 用 “localhost”" 来 蔡 代 。 人 否则 束 用 运行 服务 器 程序 
的 机 器 域名 。 


这 样 配 置 的 结果 就 古 我 们 将 得 到 一 个 
server_key.pem 文 件 ， 其 中 包含 了 私 钥 。 它 看 起 来 
是 这 样 的 : 


BEGIN RSA PRIVATE KEY 
MIICXQIBAAKBgQCZr CNLOEyAKF+f 9UNCFaz50sa6j f7qkbU18si5xQrY3ZYC 
nLidZLn/VbEFIITaUOgvBtPviqUwWT JGwga62VSG10FEOODIx3g2Nh4sRf+ry4 
L4442nx0z405vJQ7K6ERNHAZUUNCL50+YvjyLyt7ryLSjSukhCcJsbZgPwID 
AOGAB5evrr 7eyL4160tM5rHTeATlaLY3UBO0e5Z8XN8Z6gLiB/ucSX9AysviVI 
30D6z2aL8jbeJcivHqj tOdC2dwwm32vV18mRdyoAsQpwWmiqxXr kvP4Bs104VpI 
Qt8xNSW9SFhceL3LEvw9OM8i9MV39vViLh1ILyH80uUHdvJyFECQQDLEj12d2pp 
PoLQVFAirDfX2JnLTdwbc+M11a9Jdn3hkKF8TcxfEnFVs5GaviMusicY5KBOy 
YbTvqKc 7AKEAwbnRBO2VYEZs JZp2XO0IZqgP90vWOkkpYx+PE4+c6MySDgaMcig 
WDIHJGiCHudDO9GbgENasDzyb2HAIW4CzZQJBAKDdkv+xow6gJx42Auc2WzTc 
eXR/+BLpPrhkykzbv0Q8YvS5W764SU01u1LWs3G+wnRMvrRvLMCZKgggBj kCt 
Jewto2+a+wWkOKQXrNNSCCDE5aPTmZQc5waCY q4UmCZQcOj KUOIN3ST1U5iux! 
V/yx6fwOgh+fLWtkOs/ JAkA+okMSxZwgRt FfgOFGBfwQ8/ikrnizeanTQ3Lé6st 
CHZXd J3XQ6qUMNXNN71J7S/LDawoiQfWkCfD9FYOxBlg 

END RSA PRIVATE KEY 

















if #£server_cert.pem'? [MARS i Min UE BCR 
也 很 类 似 : 





Siete BEGIN CERTIFICATE----- 


MIIC+DCCAmGgAwIBAgI JAPMd+vi45jsS3MA0GCSqGSIb3DQEBBQUAMFwxCzAJ 
BAYTALVTMREwDwYDVQQIEwhJbGxpbm9pcZEQMA4GA1UEBXMHQ2hpyY 2FnbzEU 
A1UEChMLRGFiZWF6LCBMTEMXE j AQBgNVBAMTCWxvY 2FsaG9zdDAeFwOxMZAx 
ODQyMj daFwOxNDAXMTEXODQyMj daMFwxCZAJBgNVBAYTALVTMREwDwYDVQQI 
bGxpbm9pcZEQMA4GA1UEBXMHQ2hpY 2FnbzZEUMBIGA1UEChMLRGFiZWF6LCBM 
Ej AQBgNVBAMTCWxvY 2FsaG9zdDCBnzANBgkqhkiG9wOBAQEFAAOB]j QAwgY kC 


mawj S6BMgChfn/VDXBWs+TrGuo3+6pG1JfLIucUK2N2WAU47r py9XWS5/1Wx 
21DoLwbT79alFkyRsIGut LUhtaBRNDgyMd4Nj YeLEX/q8krMdit+OONp8dM+D 
O50nkTRwGVF Jwi+dPmL48i8re68id00r ioQnCbG2YD8CAWEAAaOBwTCBvjAd 
HQ4EFgQUr toLHHgXiDZTr 26NMmgKJLJLFt IwgY4GA1Ud IwSBhjCBg4AUr toL 
iDZTr26NMmgkKJLJLFtKhYKReMFwxCzAJBgNVBAYTALVTMREWDWYDVQQIEwhJ 
bm9pczEQMA4GA1UEBxMHQ2hpY 2FnbzEUMBIGALUEChMLRGFiZWF6LCBMTEMx 
BgNVBAMTCWxvY2FsaG9zdI1IJAPMd+vi45j S3MAwGALUdEWQFMAMBAf 8wDQY J 
hvcNAQEFBQADgYEAFcitdqvMG4xF8UTnNbGVvZJPIzJDRee6Nbt 6BAHQo9pOdA 
WsGCp1SO0aDNdKKz1+b2UT2Zp3AIW4Qd51bouSNnR4M/gnr9ZD1ZctFd3jS+C 
D3vvcW5 1LANCCC8OP6r Xy7d7hTeFUSEYKtRGXNVVNd/O6NALGDf Lr rOwxF3Y= 
sues END CERTIFICATE----- 





在 与 服务 器 相关 的 代码 中 ， r 
需要 传递 给 各 种 SSL 相 关 的 包装 函数 中 。 证 书 会 
现 给 客户 端 ， 而 私 钥 则 应 该 受到 保护 ， 就 保留 AAEN 服 
BAe Vit o 





在 与 客户 端 相 关 的 代码 中 ， 我 们 需要 维护 一 个 
特殊 的 文件 ， 其 中 包含 有 合法 的 证 书 颁 发 机 构 信 
妃 ， 以 此 来 验证 服务 器 端的 证 书 。 如 果 没 有 这 样 的 
文件 ， 那 么 至 少 可 以 把 服务 器 端的 证 书 拷贝 一 份 放 
在 客户 端 机 器 上 ， 用 这 个 找 贝 作为 验证 的 手段 。 在 
建立 连接 时 ， 服 务 器 会 发 送 上 自己 的 证 书 ， 而 我 们 就 
可 以 用 已 经 保存 好 的 证 书 来 完成 验证 。 


服务 右 也 可 以 选择 验证 客户 着 的 号 份 。 要 做 到 

一 点 ， 客 户 问 需要 有 目 己 的 私 钥 和 证 书 。 而 服务 
28 也 需要 维护 一 个 受信 任 的 证 书 贫 发 机 构 信 息 文 
件 ， 以 此 来 验证 客户 端的 证 书 。 














如 末 真 的 想 在 网 络 服务 中 添加 对 SSEL 的 文 持 ， 
本 节 仅 仅 只 是 小 试 身 手 告诉 你 如 何 完成 设置 。 你 肯 
定 需要 参考 有 天文 档 
Chttp://docs.python.org/3/library/ssl.html) 以 了 解 更 
多 的 细节 。 准 备 好 花 大 量 的 时 间 对 代码 进行 试验 
吧 ， 直 到 程序 能 正常 工作 为 止 。 


11.11 在 进程 间 传 递 socket 文 件 摘 
I FF 
11.111 问题 


我 们 正在 运行 多 个 Python 解释 器 进程 ， 想 把 一 
个 打开 的 文件 描述 符 从 一 个 解释 需 传 递 到 万 一 个 解 
释 占 上 上。 例如， 也 许 这 里 有 一 个 服务 器 进 程 负 贡 接 
收 连 接 ， 但 是 实际 处 理 客户 端的 请 求 是 退 过 为 一 个 
不 同 的 解释 占 来 完成 的 。 








11.11.2 ”解决 方案 


要 在 进程 间 传 递 文件 描述 符 ， 首 选 需要 将 进程 
连接 在 一 起 。 在 UNIX 系 统 上 ， 你 可 能 要 用 到 UNIX 
域 socket， 而 在 Windows 上 可 以 使 用 命名 管道 。 但 
是 ， 与 其 同 这 些 底层 的 进程 间 通 信 机 制 打交道 ， 利 
用 multiprocessing 模 块 来 建立 这 样 的 连接 通常 会 简 
单 得 多 。 


一 旦 进程 间 的 连接 建立 起 来 了 了， 就 可 以 使 用 
multiprocessing.reduction 模 块 中 的 send_handle() 和 
recV_handleO 函 数 来 在 进程 之 间 传 送 文件 描述 符 
了 。 下 面 的 示例 给 出 了 基本 用 法 : 














import multiprocessing 


from multiprocessing.reduction import 


recv_handle, send_handle 


import socket 


def 


worker(in_p, out_p): 
out_p.close() 
while 


True: 
fd = recv_handle(in_p) 
print 


('CHILD: GOT FD', fd) 
with 


socket.socket(socket.AF_INET, socket.SOCK_STREAM, fileno=fd) as 


s: 
while 
True: 
msg = s.recv(1024) 
if not 
msg: 


break 


print 


('CHILD: RECV {!r}'.format(msg) ) 
s.send(msg) 


def 


server(address, in_p, out_p, worker_pid): 
in_p.close() 
s = socket.socket(socket.AF_INET, socket .SOCK_STREAM) 
s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, True) 
s.bind(address) 
s.listen(1) 
while 


True: 
client, addr = s.accept() 
print 


('SERVER: Got connection from', addr) 
send_handle(out_p, client.fileno(), worker_pid) 
client.close() 


if 
_hname == ' main__': 
ci, c2 = multiprocessing.Pipe() 
worker_p = multiprocessing.Process(target=worker, args=(c1,c 


worker_p.start() 


server_p = multiprocessing.Process(target=server, 
args=(('', 15000), c1, c2, worker_p.pid) ) 
server_p.start() 


c1.close() 
c2.close() 


在 这 个 示例 中 我 们 生成 了 两 个 进程 ， 并 且 利 用 
multiprocessing 模 块 的 Pipe 对 象 将 它们 连接 在 一 起 。 
服务 器 进程 打开 一 个 socket 并 等 待 客户 端的 连接 。 
工作 者 进程 只 是 通过 recv_handle0 在 管道 上 等 待 接 
收文 件 描 述 符 。 当 服务 器 接收 到 一 条 连接 时 ， 筷 会 
将 得 到 的 socket 文 件 摘 述 符 通过 send_handle0 发 送 给 
工作 者 进程 。 工 作者 进程 接管 这 个 socket 并 将 数据 
回 显 给 客户 端 直 到 连接 关 财 为 止 。 


如 果 使 用 Telnet 或 者 类 似 的 工具 去 连接 服务 
船 ， 那 么 可 能 会 看 到 如 下 的 结果 : 














bash % python3 passfd.py 

SERVER: Got connection from ('127.0.0.1', 55543) 
CHILD: GOT FD 7 

CHILD: RECV b'Hello\r\n' 


CHILD: RECV b'World\r\n' 








这 个 例子 中 最 重要 的 部 分 束 是 服务 器 端 接收 到 
的 客户 端 Socket 实 际 上 是 由 另 一 个 进程 去 处 理 的 。 
服务 霹 仅 仅 只 是 将 它 转手 出 去 、 关 团 它 然后 等 竺 下 
一 个 连接 。 


11.11.3 讨论 


有 许多 程序 员 甚 至 都 没有 意识 到 在 进程 之 间 传 
递 文件 描述 符 是 可 以 实现 的 。 这 种 技术 在 构建 可 扩 
展 的 系统 时 会 是 一 件 有 用 的 工具 。 比 如 在 多 核 机 天 
上 ， 我 们 会 同时 运行 多 个 Python 解释 器 实例 ， 用 传 
递 文件 描述 符 的 方式 来 对 每 个 解释 需 处 理 的 客户 端 
数量 做 负载 均衡 。 


解决 方案 中 出 现 的 send_handle() 和 recv_handle() 
国 数 只 能 用 于 多 进程 连接 的 环境 中 。 除 了 使 用 管道 
之 外 ， 还 可 以 按照 11.7 节 中 介绍 的 方法 来 连接 解释 
人 髓 ， 只 要 你 用 的 是 UNIX 域 socket 或 者 Windows 命 名 
管道 就 可 以 。 比 如 ， 可 以 将 服务 器 和 工作 者 进程 实 
现 为 完全 分 离 的 程序 ， 可 以 分 别 局 动 。 下 面 是 服务 
fay ig A) SEEM 

















# servermp.py 


from multiprocessing.connection import 


Listener 
from multiprocessing.reduction import 


send_handle 
import socket 


server(work_address, port): 
# Wait for the worker to connect 


work_serv = Listener(work_address, authkey=b'peekaboo' ) 
worker = work_serv.accept() 
worker_pid = worker.recv() 


# Now run a TCP/IP server and send clients to worker 


s = socket.socket(socket.AF_INET, socket .SOCK_STREAM) 
s.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEADDR, True) 
s.bind(('', port)) 
s.listen(1) 
while 

True: 


client, addr = s.accept() 
print 


('SERVER: Got connection from', addr) 
send_handle(worker, client.fileno(), worker_pid) 
client.close() 

if 


—__name_— == ' main __': 
import sys 


if 


len(sys.argv) != 3: 
print 


('Usage: server.py server_address port', file=sys.stderr) 
raise SystemExit 


(1) 


server(sys.argv[1], int(sys.argv[2])) 





运行 这 个 服务 器 ， 可 以 输入 这 样 的 命令 : 
ec servermp.py /tmp/servconn 15000. / (ize xt 





IVEY AEP in RAS: 





# workermp.py 


from multiprocessing.connection import 


Client 
from multiprocessing.reduction import 


recv_handle 
import os 


from socket import 


socket, AF_INET, SOCK_STREAM 


def 


worker(server_address): 
serv = Client(server_address, authkey=b'peekaboo' ) 
serv.send(os.getpid() ) 
while 


True: 
fd = recv_handle(serv) 
print 


('WORKER: GOT FD', fd) 
with 


socket(AF_INET, SOCK_STREAM, fileno=fd) as 


client: 
while 

True: 

msg = client.recv(1024) 

if not 
msg: 

break 
print 


('WORKER: RECV {!r}'.format(msg) ) 
client.send(msg) 


if 


—_name_— == ' main __': 
import sys 


if 


len(sys.argv) != 2: 
print 


('Usage: worker.py server_address', file=sys.stderr) 
raise SystemExit 


(1) 


worker(sys.argv[1]) 








要 运行 工作 者 进程 ， 可 以 输入 python3 
workermp.py /tmp/servconn。 得 到 的 结果 应 该 和 使 








用 PipeO 的 例子 完全 一 样 。 


在 底层 ， 文 件 摘 述 符 的 传递 涉及 创建 UNIX 域 
socket， 并 且 要 用 到 socket 的 sendmsg() 方 法 。 由 于 这 
个 技术 并 不 是 广为人知 ， 下 面 我 们 给 出 另 一 种 不 同 
的 服务 器 实现 ， 展 示 了 如 何 利用 socket 来 传递 文件 
描述 符 : 








# server.py 


import socket 


import struct 


def 


send_fd(sock, fd): 


mre 


Send a single file descriptor. 


sock.sendmsg([b'x'], 
[(socket.SOL_SOCKET, socket.SCM_RIGHTS, struct. 


ack = sock.recv(2) 
assert 


ack == b'OK' 


def 


server(work_address, port): 
# Wait for the worker to connect 


work_serv = socket.socket(socket.AF_UNIX, socket .SOCK_STREAM 
work_serv.bind(work_address) 

work_serv.listen(1) 

worker, addr = work_serv.accept() 


# Now run a TCP/IP server and send clients to worker 


s = socket.socket(socket.AF_INET, socket ,SOCK_STREAM ) 
s.setsockopt(socket.SOL_SOCKET, Socket .SO_REUSEADDR，True ) 
s.bind(('',port)) 

s.listen(1) 

while 


True: 
client, addr = s.accept() 
print 


('SERVER: Got connection from', addr) 
send_fd(worker, client.fileno()) 
client.close() 


if 


—_name_— == ' main __': 
import sys 


if 


len(sys.argv) != 3: 
print 


('Usage: server.py server_address port', file=sys.stderr) 
raise SystemExit 


(1) 


server(sys.argv[1], int(sys.argv[2])) 





下 面 是 用 socket 实 现 的 工作 者 进程 : 








# worker.py 


import socket 


import struct 


def 


recv_fd(sock): 


mre 


Receive a single file descriptor 


msg, ancdata, flags, addr = sock.recvmsg(1, 
socket.CMSG_LEN(struct.calc 


cmsg_level, cmsg_type, cmsg_data = ancdata[0] 
assert 


cmsg_level == socket.SOL_SOCKET and 


cmsg_type == socket.SCM_RIGHTS 


sock.sendall(b'OK' ) 
return 


struct.unpack('i', cmsg_data)[0] 


def 


worker(server_address): 
serv = socket.socket(socket.AF_UNIX, socket .SOCK_STREAM) 
serv.connect(server_address) 
while 


True: 
fd = recv_fd(serv) 
print 


('WORKER: GOT FD', fd) 
with 


socket.socket(socket.AF_INET, socket.SOCK_STREAM, fileno=fd) as 


client: 
while 

True: 

msg = client.recv(1024) 

if not 
msg: 

break 
print 


('WORKER: RECV {!r}'.format(msg) ) 


client.send(msg) 


if 


—__name_— == ' main __': 
import sys 


if 


len(sys.argv) != 2: 
print 


('Usage: worker.py server_address', file=sys.stderr) 
raise SystemExit 


(1) 


worker(sys.argv[1]) 








如 采 打 算 在 目 己 的 程序 中 传递 文件 摘 述 符 ， 那 
么 该 一 些 相关 的 高 级 材料 比如 W.Richard Stevens 所 
3% 1) Unix Network Programming (Prentice Hall, 
1990) 是 非常 明智 的 。 在 Windows 上 传递 文件 描述 
从 需要 使 用 与 UNIX 不 同 的 技术 (本 市 未 给 出 )。 
对 于 Windows 平 台 ， 建 议 学 习 一 下 
multiprocessing.reduction 的 源码 ， 研 究 其 中 的 细节 





来 看 看 到 撒 是 如 何 实现 的 。 


11.12 ”理解 事件 驱动 型 VO 


11.12.1 问题 


我 们 可 能 已 经 听 说 过 某 些 Python 的 包 是 基 
于 “事件 驱动 ”或 “异步 LO 的 ， 但 是 并 不 能 完全 理解 
这 到 底 是 什么 意思 ， 在 底层 它 完 竟 是 如 何 工 作 的 ， 
E 
Hal 。 








11.12.2 ”解决 方案 


从 根本 上 说 ， 事 件 驱 动 O 是 一 种 将 基本 的 LO 
操作 〈 即 ， 读 和 写 ) 转换 成 事件 的 技术 ， 而 我 们 必 
须 在 程序 中 去 处 理 这 种 事件 。 比 方 说 ， 当 在 socket 
上 收 到 数据 时 ， 这 束 成 为 一 个 “接收 事件 >， 由 我 们 
提供 的 回调 方法 或 者 函数 负责 处 理 以 此 来 啊 应 这 个 
事件 。 一 个 事件 驱动 型 框架 可 能 会 以 一 个 基 类 作为 
起 始点 ， 实 现 一 系列 基本 的 事件 处 理 方法 ， 就 像 下 
面 的 示例 这 样 : 


class EventHandler 





def 


fileno(self): 
"Return the associated file descriptor' 
raise 


NotImplemented('must implement ' ) 
def 
wants_to_receive(self): 
"Return True if receiving is allowed' 
return 
False 
def 
handle_receive(self): 


‘Perform the receive operation' 
pass 


def 


wants_to_send(self): 
"Return True if sending is requested' 
return 


False 


def 


handle_send(self): 
"Send outgoing data' 


pass 





之 后 ， 束 可 以 把 这 个 类 的 实例 插入 到 一 个 事件 
循环 中 ， 看 起 来 是 这 样 的 : 




















import select 


def 


event_loop(handlers): 
while 


True: 
wants_recv = [h for 


handlers if 


h.wants_to_receive() ] 
wants_send = [h for 


handlers if 


h.wants_to_send() ] 
can_recv, can_send, _ = select.select(wants_recv, wants_ 


for 


h in 


Can_recv: 
h.handle_receive( ) 
for 


can_send: 
h.handle_send( ) 





LISA fal HL! 事件 循环 的 核心 在 于 selectO 调 
用 ， 它 会 轮 询 文件 摘 述 符 检 和 奏 它 们 是 否 处 于 活跃 状 





态 。 在 调用 select0 之 前 ， 事 件 循环 会 简单 地 查询 所 
有 的 处 理 方 法 ， 看 它们 是 希望 接收 还 是 有 友 送 数据 。 
然后 把 查询 的 结果 以 列表 的 方式 提供 给 select()。 结 
果 就 是 ，select0 会 返回 已 经 在 接收 或 发 送 事 件 上 就 
绪 的 对 象 列 表 。 对 应 的 handle_receive0O 或 者 
handle_send() 方 法 就 被 触发 执行 。 


要 编写 应 用 程序 ， 束 需要 创建 特定 的 
EventHandler 类 的 实例 。 比 如 ， 这 里 有 两 个 简单 的 
处 理 程 序 ， 用 以 说 明 两 个 基于 UDP 的 网 络 服务 : 





import socket 


import time 


class UDPServer 


(EventHandler ): 
def 


__init__(self, address): 
self.sock = socket.socket(socket.AF_INET, socket.SOCK_DG 
self.sock.bind(address) 


def 


fileno(self): 
return 


self.sock.fileno( ) 


def 


wants_to_receive(self): 
return 


True 


class UDPTimeServer 


(UDPServer ): 
def 





handle_receive(self): 
msg, addr = self.sock.recvfrom(1) 
self.sock.sendto(time.ctime().encode('ascii'), addr) 


class UDPEchoServer 


(UDPServer ) : 
def 


handle_receive(self): 
msg, addr = self.sock.recvfrom( 8192) 
self.sock.sendto(msg, addr) 


if 


__name__ == ' main__': 
handlers = [ UDPTimeServer(('',14000)), UDPEchoServer(('',15 
event_loop(handlers) 





要 测试 这 份 代码 ， 可 以 试 痢 从 另 一 个 Python 解 
RE ar PIE AR A ais 


>>> from socket import 





* 


>>> s = socket(AF_INET, SOCK_DGRAM) 

>>> s.sendto(b'',('localhost',14000) ) 

0 

>>> s.recvfrom(128) 

(b'Tue Sep 18 14:29:23 2012', ('127.0.0.1', 14000) ) 
>>> s.sendto(b'Hello', ('localhost',15000) ) 

5 

>>> s.recvfrom(128) 

(b'Hello', ('127.0.0.1', 15000) ) 


>>> 


SEBL— “ST CP AR tir Bh Ee A SZ oR EE, AVA 
每 个 客户 端 都 涉及 产生 一 个 新 的 处 理 对 象 。 下 面 是 
TCP echo 客 户 端的 示例 : 








class TCPServer 


(EventHandler ): 


def 


__ init__(self, address, client_handler, handler_list): 


self. 
self. 
self. 
self. 


sock = socket.socket(socket.AF_INET, socket .SOCK_ST 
sock.setsockopt(socket.SOL_SOCKET, socket.SO_REUSEA 
sock.bind(address) 

sock.listen(1) 


self.client_handler = client_handler 
self.handler_list = handler_list 
def 
fileno(self): 
return 


self.sock.fileno( ) 


def 


wants_to_receive(self): 
return 


True 


def 


handle_receive(self): 
client, addr = self.sock.accept() 
# Add the client to the event loop's handler list 


self. handler_list.append(self.client_handler(client, sel 
class TCPClient 


(EventHandler ): 
def 


__init__(self, sock, handler_list): 
self.sock = sock 
self.handler_list = handler_list 
self.outgoing = bytearray() 


def 
fileno(self): 
return 
self.sock.fileno( ) 
def 
close(self): 


self .sock.close() 
# Remove myself from the event loop's handler list 


self. handler_list.remove(self ) 


def 


wants_to_send(self): 
return 


True if 


self.outgoing else 


False 


def 


handle_send(self): 
nsent = self.sock.send(self.outgoing) 
self.outgoing = self.outgoing[nsent: ] 


class TCPEchoClient 


(TCPClient): 
def 


wants_to_receive(self): 
return 


True 


def 


handle_receive(self): 
data = self.sock.recv(8192) 
if not 


data: 
self .close() 
else 


self.outgoing.extend(data) 


if 


—__name_— == ' main __': 
handlers = [] 


handlers.append(TCPServer(('',16000), TCPEchoClient, handler 
event_loop(handlers) 





这 个 TCP 示 例 的 关键 在 于 需要 从 处 理 列表 中 添 
JNA AS BRE Imo TE BEE REP es Ay Pa BH SE 
一 个 新 的 处 理 例 程 并 添加 a 到 列表 中 。 可 是 当 连 接 关 
T 0 


如 果 运 行 这 个 程序 并 答 试 用 Telnet 或 者 类 似 的 
工具 来 建立 连接 ， 就 会 看 到 服务 融会 将 接收 到 的 数 
据 回 送 给 你 。 这 个 程序 应 该 能 轻松 处 理 多 个 不 同 的 
客户 中。 





11.12.3 ”讨论 


几乎 所 有 的 事件 驱动 型 框架 的 工作 原理 都 和 我 
们 给 出 的 解决 方案 相 类 似 。 实 际 的 实现 细 市 以 及 软 
件 的 总 体 染 构 可 能 会 有 较 大 的 区 别 ， 但 古 核心 部 分 





循环 来 轮 询 socket 的 活跃 性 并 执行 啊 应 操 
作 。 


事件 张 动 型 IO 的 一 个 潜在 优势 在 于 它 可 以 在 
不 使 用 线程 和 进程 的 条 件 下 同时 处 理 大量 的 连接 。 
也 束 是 说 ，selectO 调 用 (或 者 功能 相同 的 其 他 调 
H) 可 用 来 监视 成 百 上 于 个 socket， 并 且 针 对 它们 
中 间 发 生 的 事件 作出 啊 应 。 事 件 循环 一 次 处 理 一 个 
事件 ， 不 需要 任何 其 他 的 并 发 原 语 参与 。 


事件 张 动 型 IO 的 缺点 在 于 这 里 并 没有 涉及 真 
正 的 并 发。 如 于 任何 一 个 事件 处 理 方 法 阻塞 了 或 者 
执行 了 一 个 耗 时 较 长 的 计算 ， 那 么 误会 阻塞 整个 程 
序 的 执行 进程 。 不 是 以 事件 驱动 风格 实现 的 库 函 数 
调用 起 来 也 会 有 这 个 问题 。 总 是 会 有 这 样 的 风险 ， 
了 ， 导 致 整个 事件 循环 售 
沛 不 及。 


对 于 阻 杜 型 或 者 需要 长 时 间 运 行 的 计算 ， 可 以 
通过 将 任务 发 送 给 单独 的 线程 或 者 进程 来 解决 。 但 
是 ， 将 线程 和 进程 同事 件 循环 进行 协调 需要 较 高 的 
技巧 。 下 面 的 代码 示例 通过 concurrent.futures 模 块 
来 实现 : 


from concurrent .futures Import 























ThreadPoolExecutor 
import os 


class ThreadPoolHandler 


(EventHandler ): 
def 


__ init__(self, nworkers): 
if 


os.name == 'posix': 
self.signal_done_sock, self.done_sock = socket.socke 
else 


server = socket.socket(socket.AF_INET, socket.SOCK_S 

server.bind(('127.0.0.1', 0)) 

server.listen(1) 

self.signal_done_sock = socket.socket(socket.AF_INET 
socket .SOCK_ST 

self.signal_done_sock.connect (server .getsockname() ) 

self.done_sock, _ = server.accept() 

server .close() 


self.pending = [] 
self.pool = ThreadPoolExecutor(nworkers) 


def 


fileno(self): 
return 


self.done_sock.fileno() 


# Callback that executes when the thread is done 


def 


complete(self, callback, r): 
self.pending.append((callback, r.result())) 
self.signal_done_sock.send(b'x') 


# Run a function in a thread pool 


def 


run(self, func, args=(), kwargs={},*,callback): 
r = self.pool.submit(func, *args, **kwargs) 
r.add_done_callback(lambda 


r: self._complete(callback, r)) 


def 


wants_to_receive(self): 
return 


True 


# Run callback functions of completed work 


def 


handle_receive(self): 
# Invoke all pending callback functions 


for 


callback, result in 


self.pending: 
callback(result ) 
self.done_sock.recv(1) 
self.pending = [] 








在 这 份 代码 中 ，run(0) 方 法 用 来 将 任务 以 及 任务 
完成 时 需要 触发 的 回调 函数 一 起 提交 到 线程 池 中 。 





实际 的 任务 就 提交 给 了 ThredPoolExecutor 实 例 。 但 
是 ， 一 个 非常 塌 手 的 地 方 在 于 需要 考虑 计算 出 的 结 
果 同 事件 循环 之 间 的 协调 同步 问题 。 为 了 实现 这 个 
目的 ， 我 们 在 底层 创建 了 一 对 socket， 用 来 实现 一 
种 信号 通知 机 制 。 当 线程 池 中 的 任务 完成 后 ， 它 束 
执行 类 中 的 _complete0 方 法 。 访 方法 在 对 这 些 
socket 写 入 一 字 节 的 数据 前 ， 将 暂停 的 回调 函数 和 
结果 进行 排队 处 理 。fileno0) 方 法 可 用 来 返回 另 一 个 
socket。 因 此 ， 当 写 入 这 个 字 节 时 融会 通知 事件 循 
环 有 事件 发 生 了 。 当 触发 时 ，handle_receive() 方 法 
将 执行 所 有 之 前 提交 过 来 的 回调 函数 。 坦 日 说 ， 这 
足以 把 人 的 脑袋 弄 肥 。 


下 面 给 出 了 一 个 简单 的 服务 右 实 现 ， 展 示 了 如 
何 利 用 线程 池 来 执行 需要 长 时 间 运 行 的 计算 任务 : 





























# A really bad Fibonacci implementation 


def 
fib(n): 
if 
n < 2 
return 
1 
else 
return 


fib(n - 1) + fib(n - 2) 


class UDPFibServer 


(UDPServer ): 
def 


handle_receive(self): 


msg, addr = self.sock.recvfrom(128) 


n = int(msg) 


pool.run(fib, (n,), callback=lambda 


r: self.respond(r, addr)) 


def 


respond(self, result, addr): 


self.sock.sendto(str(result).encode('ascii'), addr) 
if 


_hname == ' main__': 
pool = ThreadPoolHandler (16) 
handlers = [ pool, UDPFibServer(('',16000) ) ] 
event_loop(handlers) 








要 测试 这 个 服务 器 ， 只 需要 运行 上 面 的 代码 并 


通过 另 一 个 Python 程序 来 做 些 试验 : 


from Socket Import 


* 


sock = socket(AF_INET, SOCK_DGRAM) 
for 


range(40): 
sock.sendto(str(x).encode('ascii'), ('localhost', 16000) ) 
resp = sock.recvfrom( 8192) 
print 


(resp[0]) 





我 们 应 该 可 以 在 许多 不 同 的 窗口 中 重复 运行 这 
个 程序 ， 这 么 做 不 会 使 其 他 的 程序 被 阻 时。 但 是 我 





们 运行 的 程序 实例 越 多 ， 它 运行 的 速度 也 会 越 来 越 


慢 。 


读 完 这 一 节 后 你 会 考虑 使 用 这 样 的 代码 吗 ? 很 
可 能 不 会 。 相 反 ， 应 该 找 一 个 功能 完备 的 框架 来 完 
成 同样 的 任务 。 但 是 ， 如 果 理 解 了 本 节 提 到 的 基本 
概念 ， 就 能 理解 这 样 的 框架 所 采用 的 核心 技术 。 作 
为 基于 回调 的 编程 模型 的 蔡 代 方案 ， 有 时 候 也 会 在 
so een teers 协 程 。 请 参见 12.12 节 中 的 示 
Al 


11.13 ”发送 和 接收 大 型 数组 
11.13.1 问题 
我 们 想 通 过 网 络 连接 发 送 和 接收 大 型 数组 ， 其 


中 的 数据 都 是 连续 的 ， 并 且 要 求 尽 可 能 少 地 对 数据 
HIT J. 


11.13.2 解决 方案 


下 面 的 函数 利用 memoryview 对 大 型 数组 进行 
发 送 和 接收 : 





# zerocopy.py 


def 


send =F roman; dest 
view = eed anne cast('B') 
while 


len(view): 
nsent = dest.send(view) 
view = view[nsent: ] 


recv_into(arr, source): 
view = memoryview(arr).cast('B') 
while 


len(view): 
nrecv = source.recv_into(view) 
view = view[nrecv: ] 





要 测试 这 个 程序 ， 首 先 创建 一 个 服务 器 和 客户 
端 程序 ， 它 们 之 间 通 过 socket 进 行 连 接 。 服 务 器 端 
的 代码 如 下 : 





>>> from Socket Import 


s = socket(AF_INET, SOCK_STREAM) 
s.bind(('', 25000) ) 

s.listen(1) 

c,a = s.accept() 





sin TRG E E n 7S AR SP PE ae PIS 
E 





>>> from socket import 


>>> C = socket(AF_INET, SOCK_STREAM) 
>>> c.connect(('localhost', 25000) ) 
>>> 








现在 来 看 看 本 节 所 关注 的 主要 问题 : 可 以 在 网 
络 连 接 上 传输 大 型 的 数组 。 这 种 情况 下 ， 数 组 可 以 
通过 array 模 块 或 者 humpy 来 创建 。 示 例如 下 : 


# Server 
>>> import numpy 


>>> a = numpy.arange(0.0, 50000000.0) 
>>> send_from(a, c) 
>>> 


# Client 
>>> import numpy 


>>> a = numpy.zeros(shape=50000000, dtype=float ) 
>>> a[0:10] 

array([ ©., ©., ©., 0., ©., ©., ©., ©., ©., 0.]) 
>>> recv_into(a, c) 

>>> a[0:10] 

array([ 0., 

>>> 





11.13.33 ”讨论 


在 数据 密集 型 的 分 布 式 计算 以 及 采用 并 行 编程 
拉 术 的 应 用 程序 中 ， 编 写 需 要 发 送 和 接收 大 型 数据 
块 的 程序 是 很 种 见 的 。 但 是 为 了 实现 这 个 目标 ， 需 
要 以 祭 种 方式 将 数据 还 原 为 原始 的 字 市 给 的 层 的 网 
络 接口 所 用 。 我 们 可 能 还 需要 将 数据 分 片 为 较 小 的 
块 ， 因 为 大 部 分 与 网 络 相关 的 函数 都 无 法 一 次 性 发 
送 或 者 接收 超大 型 的 数据 块 。 


一 种 方法 是 以 某 种 方式 将 数据 进行 序列 化 处 理 
可 能 是 将 其 转换 为 字 市 串 的 形式 。 但 是 ， 这 么 
做 通常 都 要 对 数据 进行 捞 贝 ， 这 正 是 我 们 极力 避免 
的 。 就 算 我 们 将 数据 逐 块 进行 找 贝 ， 代 码 中 还 是 会 
产生 大 量 的 小 其 拷贝 操作 。 


本 节 提 到 的 技术 对 这 个 问题 进行 了 规避 ， 这 是 
通过 利用 memoryview 来 实现 的 一 个 技巧 。 从 本 质 上 
来 说 ，memoryview 束 是 对 已 有 数组 的 一 层 缆 新。 不 
仅 是 这 样 ，memoryview 还 可 以 转型 为 不 同 的 类 型 ， 
允许 数据 根据 不 同 的 方式 进行 解释 。 这 正 是 下 列 语 
句 的 用 意 所 在 : 


view = memoryview(arr).cast('B') 


上 面 的 语句 接受 一 个 数组 arr， 并 将 其 转型 为 无 


从 写字 节 的 memoryview。 
































这 种 形式 的 memoryview 可 以 传递 给 与 socket 相 
关 的 函数 ， 比 如 sock.send0O) 或 者 send.recv_into()。 在 
确 层 ， 这 些 方法 可 以 直接 同 内 存 打交道 。 比 如 ， 
sock.send() 直 接 从 内 存 中 发 送 数 据 ， 不 需要 进行 找 
贝 。 针 对 接收 操作 ，send.recv_into0) 会 将 
memoryview 作 为 输入 缓冲 区 来 使 用 。 


避免 内 存 拷贝 的 问题 解决 了 ， 剩 下 的 问题 残 主 
要 归结 在 与 socket 相关 的 函数 一 次 只 能 处 理 一 部 分 
数据 上 。 一 般 来 说 ， 需 要 调用 多 次 send0 和 
recv_into() 才 能 将 整个 数组 传输 完毕 。 别 担心 ， 
次 操作 后 ，memoryview 都 会 根据 已 经 发 送 或 者 接收 
的 字 节 数 做 切片 处 理 ， 以 产生 一 个 新 的 
memoryview。 这 个 新 的 memoryview 同 样 也 是 一 个 


内 存 获 兰 层 ， 因 此 根本 不 会 产生 任何 找 贝 。 


这 里 还 有 一 个 问题 就 是 接收 方 需要 预先 知道 要 
对 方 要 发 送 多 少数 据 ， 这 样 接收 方才 可 以 了 预 分 配 一 
个 相应 的 数组 ， 或 者 验证 是 侣 可 以 将 接收 到 的 数据 
直接 放 入 已 有 的 数组 中 。 如 果 这 对 你 来 说 存在 问 
题 ， 那 么 可 以 让 发 送 方 总 是 先 发 送 数据 的 大 小 ， 后 
面 骨 跟 看 数组 数据 。 
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Python 很 早 束 开始 文 持 多 种 不 同 的 并 友 编 程 方 
法 ， 包 括 多 线程 、 加 载 子 进程 以 及 各 种 涉及 生成 需 
因数 的 技巧 。 在 本 章 中 ， 我 们 会 谈 到 有 天 并 及 编程 
的 方方面面 ， 包 括 毅 见 的 多 线程 编程 技术 以 及 实现 
并 行 处 理 的 方法 。 





有 经 验 的 程序 员 都 应 该 知道 ， 并 及 编程 中 充满 
了 淤 在 的 危险 。 因 此 ， 本 章 的 重点 在 于 引导 大 家 编 
写 出 更 可 靠 以 及 更 易于 调试 的 代码 。 








12.1 局 动 和 停止 线程 
12.1.1 问题 


为 了 让 代码 能 够 并 发 执行 ， 我 们 想 创 建 线程 并 
在 合适 的 时 候 销毁 。 


12.1.2 解决 方案 


threading 库 可 用 来 在 单独 的 线程 中 执行 任意 的 
Python 可 调用 对 象 。 要 实现 这 一 要 求 ， 可 以 创建 一 
个 Thread 实 例 并 为 它 提供 期 望 执行 的 可 调用 对 象 。 
下 面 古 一 个 简单 的 示例 : 





# Code to execute in an independent thread 


import time 


def 


countdown(n): 
while 


time.sleep(5) 


# Create and launch a thread 


from threading import 


Thread 
t = Thread(target=countdown, args=(10, )) 
t.start() 





当 创 建 一 个 线程 实例 时 ， 在 调用 它 的 start() 方 





法 之 前 (需要 提供 目标 函数 以 及 相应 的 参数 ) ， 线 
程 并 不 会 立刻 开始 执行 。 


线程 实例 会 在 它们 目 己 所 属 的 系统 级 线程 
(EN, POSIX 线 程 或 Windows 线 程 ) 中 执行 ， 这 些 
线程 完全 由 操作 系统 来 管理 。 一 旦 启动 后 ， 线 程 就 
开始 独立 地 运行 ， 直 到 目标 函数 返回 为 止 。 可 以 奉 
询 线程 实例 来 判断 它 是 否 还 在 运行 : 


PS 











if 


t.is_alive(): 
print 


('Still running' ) 
else 


print 


('Completed' ) 





也 可 以 请 求 连接 Coin) 到 某 个 线程 上 ， 这 人 么 


做 会 等 每 该 线 程 结 


t.join() 


解释 器 会 一 直 保 持 运 行 ， 直 到 所 有 的 线程 都 终 
结 为 止 。 对 于 需要 长 时 间 运 行 的 线程 或 者 一 直 不 断 
运行 的 后 台 人 任务， 应 该 考虑 将 这 些 线程 设置 为 
daemon 〈 即 ， 和 守护 线程 ) 。 示 例如 下 : 








t = Thread(target=countdown, args=(10,), daemon=True) 
t.start() 








daemon 线 程 是 无 法 航 连 接 的 。 但 是 ， 当 主线 程 
结束 后 它们 会 目 动 销毁 挥 。 


除了 以 上 展示 的 两 种 操作 外 ， 对 于 线程 没有 太 
多 别 的 操作 可 做 了 。 比 如 说 ， 终 止 线 程 、 给 线程 发 
信和 号、 调整 线程 调度 属性 以 及 执行 任何 其 他 的 高 级 
操作 ， 这 些 功 能 都 没有 。 如 条 想 要 这 些 功能 ， 就 需 
要 上 自己 去 构建 。 


如 果 想 要 终止 线程 ， 这 个 线程 必须 要 能 够 在 汞 
个 指定 的 点 上 轮 询 退 出 状态 ， 这 就 需要 编程 实现 。 
比如 ， 可 以 将 线程 放 到 下 面 这 样 的 类 中 : 











class CountdownTask 


def 


__ init__(self): 


self. running = True 


def 


terminate(self): 


self._running = False 


def 


run(self, n): 
while 


self. running and 


print 


('T-minus', n) 


time.sleep(5) 


O 
| 


= CountdownTask() 
t = Thread(target=c.run, args=(10, )) 
t.start() 


c.terminate( ) # Signal termination 


t.join() # Wait for actual termination (if needed) 


| 


如 果 线 程 会 执行 阻塞 性 的 操作 比如 VO， 那么 
在 轮 询 线程 的 退出 状态 时 如 何 实 现 同步 将 变 得 很 环 
手 。 比 如 ， 革 个 线程 被 永远 阻塞 在 IO 操作 上 了 ， 
那么 它 就 永远 无 法 返回 ， 以 检查 自己 是 否 要 被 终 
止 。 要 正确 处 理 这 个 问题 ， 需 要 小 心地 为 线程 加 上 
超时 循环 。 示 例如 下 : 





class IOTask 


def 


terminate(self): 


self._running = False 


def 


run(self, sock): 


# sock is a socket 


sock.settimeout(5) # Set timeout period 


while 


self._running: 


# Perform a blocking I/O operation w/ timeout 


try 


data = sock.recv(8192) 


break 
except 
socket.timeout: 
continue 


# Continued processing 


# Terminated 


return 





12.1.3 讨论 


He ea Pere asl CGIL) 的 存在 ，Python 线 
Be AS) SAF eA OR ll AE ES IN LR OE ERE 
中 运行 一 个 线程 。 基 于 这 个 原因 ， 不 应 该 使 用 
Python 线 程 来 处 理 计 算 穴 集 型 的 任务 ， 因 为 在 这 种 
任务 中 我 们 希望 在 多 个 CPU 核 心 上 实 现 并 行 处 理 。 
Python 线程 更 适合 于 IJO 处 理 以 及 涉及 阻塞 操作 的 并 
发 执行 任务 〈 即 ， 等 待 HO、 等 竺 从 数据 库 中 取出 


结束 等 ) 。 


有 时 候 我 们 会 发 现 从 Thread 类 中 继承 而 来 的 线 
程 类 。 比 如 : 


from threading import 





Thread 


class CountdownThread 


(Thread ) : 
def 


__init__(self, n): 


super().__init__() 


run(self): 
while 


self.n > 0: 


print 


('T-minus', self.n) 


self.n -= 


time.sleep(5) 


c = CountdownThread(5) 
c.start() 





尽管 这 么 做 也 能 完成 任务 ， 但 这 在 代码 和 
threading 库 之 则 引入 了 一 层 额 外 的 依赖 关系 。 意 思 
束 是 说 ， 上 面 的 代码 只 能 用 在 有 关 线 程 的 上 下 文 
中 ， 而 我 们 之 前 展示 的 技术 中 编写 的 代码 并 不 会 显 
式 依赖 于 threading 库 。 把 代码 从 这 种 依赖 天 系 中 解 
放出 来 ， 那 么 束 可 以 使 代码 在 其 他 可 能 不 会 涉及 线 
程 的 上 下 文中 也 能 得 到 重用 。 比 如 ， 我 们 可 能 会 利 
用 multiprocessing 模 块 让 代码 在 单独 的 进程 中 运 
行 ， 代 人 码 看 起 来 是 这 样 的 : 




















import multiprocessing 


c = CountdownTask(5) 


p = multiprocessing. Process(target=c.run) 
p.start() 





再 一 次 申明 ， 这 只 会 在 CountdownTask 类 独立 


于 任何 一 种 并 发 机 制 ( 线 程 、 进 程 等 ) 时 才 有 用 。 


12.2 判断 线程 是 否 已 经 局 动 


12.2.1 问题 





我 们 已 经 加 载 了 一 个 线程 ， 但 是 想 知道 它 实际 
会 在 什么 时 候 开始 运 行 。 


12.2.2 ”解决 方案 


线程 的 核心 特征 束 古 它们 能 够 以 非 确 定性 的 方 
式 〈 即 ， 何 时 开始 执行 、 何 时 被 打 断 、 何 时 恢复 执 
行 完 全 由 操作 系统 来 调度 管理 ， 这 是 用 户 和 程序 员 
都 无 法 确定 的 ) 独立 执行 。 如 果 程 序 中 有 其 他 线程 
需要 判断 某 个 线程 是 否 已 经 到 达 执 行 过 程 中 的 菜 个 
点 ， 根 据 这 个 判断 来 执行 后 续 的 操作 ， 那 么 这 残 产 
生 了 非常 玉手 的 线程 同步 问题 。 要 解决 这 类 问题 ， 
我 们 可 以 使 用 threading 库 中 的 Event 对 象 。 


Event 对 象 和 条 件 标 记 (sticky flag) Aw, Ù 
许 线 程 等 待 某 个 事件 发 生 。 和 初始 状态 时 事件 被 设置 
为 0。 如 果 事 件 没 有 被 设置 而 线程 正在 等 竺 该 事 
YF, PBA ARERR OMA SE CBN, REA CRERIKAS) , 
直到 事件 被 设置 为 止 。 当 有 线程 设置 了 这 个 事件 
时 ， 这 会 唤醒 所 有 正在 等 得 该 事件 的 线程 (如 有 果 有 























的 话 ) 。 如 末 线 程 等 待 的 事件 已 经 设置 了 ， 那 么 线 
程 会 继续 执行 。 


下 面 给 出 了 一 个 简单 的 示例 ， 使 用 Event 来 同 
步 线 程 的 启动 : 





from threading import 


Thread, Event 
import time 


# Code to execute in an independent thread 


def 


countdown(n, started_evt): 
print 


('countdown starting' ) 


started_evt.set() 
while 


time.sleep(5) 


# Create the event object that will be used to signal startup 


started_evt = Event() 


# Launch the thread and pass the startup event 


print 


('Launching countdown' ) 
t = Thread(target=countdown, args=(10,started_evt) ) 
t.start() 


# Wait for the thread to start 


started_evt.wait() 
print 


('countdown is running’ ) 





当 运 行 这 段 代码 时 ， 字 符 串 “countdown is 
running” 总 是 会 在 “countdown starting” 之 后 显示 。 这 


vy 
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countdownO 函 数 首 先 打 印 出 局 动 信 息 之 后 才 开 始 执 
行 。 


12.2.3 ”讨论 


Event 对 象 最 好 只 用 于 一 次 性 的 事件 。 也 惑 是 
说 ， 我 们 创建 一 个 事件 ， 让 线程 等 竺 事件 被 设置 ， 
然后 一 旦 完成 了 设置 ，Event 对 象 束 被 丢 寞 。 尽 管 
可 以 使 用 Event 对 象 的 clear(0) 方 法 来 清除 事件 ， 但 是 
要 安全 地 清除 事件 并 等 待 它 被 再 次 设置 这 个 过 程 很 
难 同 步 协 调 ， 可 能 会 造成 事件 丢失 、 死 锁 或 者 其 他 
的 问题 (特别 是 ， 在 设 定 完事 件 之 后 ， 我 们 无 法 保 
证 发 起 的 事件 清除 请 求 就 一 定 会 在 线程 再 次 等 待 该 
事件 之 前 被 执行 ) Ul. 


如 果 线 程 打算 一 明 又 一 过 地 重复 通知 某 个 事 
件 ， 那 最 好 使 用 Condition 对 象 来 处 理 。 比 如 ， 下 面 
的 代码 实现 了 一 个 周期 性 的 定时 器 ， 每 当 定 时 器 超 
时 时 ， 其 他 的 线程 都 可 以 感知 到 超时 事件 : 




















import threading 


import time 


class PeriodicTimer 


def 


__ init__(self, interval): 


self. interval = interval 


self._flag = 0 


self. cv = threading.Condition() 


def 


start(self): 


t = threading. Thread(target=self.run) 


t.daemon = True 


t.start() 


def 


run(self): 


Run the timer and notify waiting threads after each interval 


while 


True: 


time.sleep(self._interval) 
with 


self. cv: 


self._flag ^= 1 


self._cv.notify_all() 


def 


wait_for_tick(self): 


Wait for the next tick of the timer 


last_flag = self._flag 
while 


last_flag == self._flag: 


self._cv.wait() 


# Example use of the timer 


ptimer = PeriodicTimer(5) 
ptimer.start() 


# Two threads that synchronize on the timer 


def 


countdown(nticks): 
while 


nticks > 0: 


ptimer .wait_for_tick() 
print 


('T-minus', nticks) 


nticks -= 


def 


countup(last): 


n= 0 
while 
n < last: 


ptimer .wait_for_tick() 
print 


('Counting', n) 


n += 1 


threading.Thread(target=countdown, args=(10, )).start() 
threading.Thread(target=countup, args=(5,)).start() 
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的 线程 。 如 果 我 们 编写 的 程序 只 硕 望 唤醒 一 个 单独 
的 等 待 线程， 那么 最 好 使 用 Semaphore 或 者 
Condition 对 象 。 





比方 说 ， 考 上 碟 下 面 使 用 了 信和 号 量 
(semaphore) 的 代 伍 : 





# Worker thread 


def 


worker(n, sema): 


# Wait to be signaled 


sema.acquire() 


# Do some work 


print 


('Working', n) 


# Create some threads 


sema = threading.Semaphore(0) 
nworkers = 10 
for 


range(nworkers): 


t = threading. Thread(target=worker, args=(n, sema, )) 


t.start() 





执行 上 面 的 程序 会 月 动 一 系列 的 线程 ， 但 是 什 
么 也 不 会 友 生 。 这 些 线程 部 会 因为 等 行 获 取信 号 量 
而 被 阻塞 。 每 次 释放 信号 量 时 ， 只 有 一 个 工作 者 线 
程 会 被 唤醒 并 投入 运行 。 示 例如 下 : 





>>> sema.release() 
Working 0 

>>> sema.release() 
Working 1 

>>> 





如 果 编 写 的 代码 中 涉及 许多 线程 间 同 步 的 技 
巧 ， 那 么 很 容易 就 会 让 自己 的 脑袋 转 蛇 。 一 个 更 为 
明智 的 做 法 是 利用 队列 或 者 actor 模 式 来 完成 线程 间 
的 通信 任务 。 队 列 将 在 下 一 节 中 接 述 。actor 模 式 将 
在 12.10 节 中 讲解 。 


12.3 ”线程 间 通 信 
12.3.1 问题 


我 们 的 程序 中 有 多 个 线程 ， 我 们 想 在 这 些 线程 
之 间 实 现 安全 的 通信 或 者 交换 数据 。 


12.3.2 ”解决 方案 


也 许 将 数据 从 一 个 线程 发 往 另 一 个 线程 最 安全 
的 做 法 就 是 使 用 queue 模 块 中 的 Queue〈 队 列 ) Y. 
要 做 到 这 些 ， 首 先 创建 一 个 Queue 实 例 ， 生 会 被 所 
有 的 线程 共享 。 之 后 线程 可 以 使 用 put0 或 者 getO 操 
作 来 给 队列 添加 或 移 除 元 叉 。 示 例如 下 : 














from queue import 


Queue 
from threading import 


Thread 


# A thread that produces data 


producer (out_q): 
while 


True: 


# Produce some data 


out_q.put(data) 


# A thread that consumes data 


def 


consumer (in_q): 
while 


True: 


# Get some data 


data = in_q.get() 


# Process the data 


# Create the shared queue and launch both threads 


q = Queue() 
ti = Thread(target=consumer, args=(q, )) 
t2 = Thread(target=producer, args=(q, )) 
ti.start() 
t2.start() 





Queue 实 例 已 经 拥有 了 所 有 所 需 的 锁 ， 因 此 它 





们 可 以 安全 地 在 任意 多 的 线程 之 间 共 孚 。 


当 使 用 队列 时 ， 如 何 对 生产 者 (producer) 和 
消费 者 (consumer)〉 的 关闭 过 程 进行 同步 协调 需要 
用 到 一 些 技巧 。 这 个 问题 的 一 般 解 决 方法 是 使 用 一 
个 特殊 的 终止 值 ， 当 我 们 将 它 放 入 队列 中 时 束 使 消 
费 者 退出 。 示 例如 下 : 


Ee 





from queue import 


Queue 
from threading import 


Thread 


# Object that signals shutdown 


_sentinel = object() 


# A thread that produces data 


def 


producer (out_q): 


while 


running: 


# Produce some data 


out_q.put(data) 


# Put the sentinel on the queue to indicate completion 


out_q.put(_sentinel) 


# A thread that consumes data 


def 


consumer (in_q): 


while 


True: 


# Get some data 


data = in_q.get() 


# Check for termination 


if 


data is 


_sentinel: 


in_q.put(_sentinel) 
br 


# Process the data 





这 个 示例 中 有 一 个 很 微妙 的 功能 ， 那 就 是 当 消 
费 者 接收 到 这 个 特殊 的 终止 值 后 ， 会 立刻 将 其 重新 
放 回 到 队列 中 。 这 么 做 使 得 在 同一 个 队列 上 监听 的 
其 他 消费 者 线程 也 能 接收 到 终止 值 一 一 因此 可 以 一 
个 一 个 地 将 它们 都 天 闭 掉 。 





尽管 队列 是 线程 间 通 信和 的 最 第 见 的 机 制 ， 但 是 
只 要 添加 了 所 需 的 锁 和 同步 功能 ， 就 可 以 构建 目 己 
的 线程 安全 型 的 数据 结构 。 最 常见 的 做 法 是 将 你 的 
数据 结构 和 条 件 变 量 打包 在 一 起 。 比 如 ， 下 面 的 示 
例 构 建 了 一 个 线程 安全 的 优先 级 队列 。 天 于 优先 级 
队列 我 们 在 1.5 市 中 已 经 讨论 过 。 











import heapq 


import threading 


class PriorityQueue 


def 


__ init__(self): 


self. queue 


[] 


self. count = 0 


self. cv = threading.Condition() 
def 


put(self, item, priority): 
with 


self. cv: 


heapq.heappush(self._queue, (-priority, self._count, item)) 


self. count += 1 


self._cv.notify() 


def 


get(self): 
with 


self._cv: 
while 


len(self._ queue) == 0: 


self. _cv.wait() 
return 


heapq.heappop(self. queue) [ -1] 





通过 队列 实现 的 线程 间 通 信和 是 一 种 单方 癌 且 不 
确定 的 过 程 。 一 般 来 说 ， 我 们 无 法 得 知 接收 线程 





(也 就 是 消费 者 ) 何 时 会 实际 接收 到 消 奶 并 开始 工 
作 。 但 是 ，Queue 对 和 象 的 确 提 供 了 一 些 基 本 的 事件 
完成 功能 (completion feature) 。 下 面 的 示例 通过 
task_doneO0 和 join0) 方 法 对 此 进行 了 说 明 : 


from queue import 





Queue 
from threading import 


Thread 


# A thread that produces data 


def 


producer (out_q): 
while 


running: 


# Produce some data 


out_q.put(data) 


# A thread that consumes data 


def 


consumer (in_q): 
while 


True: 


# Get some data 


data = in_q.get() 


# Process the data 


# Indicate completion 


in_q.task_done( ) 


# Create the shared queue and launch both threads 


q = Queue() 

t1 = Thread(target=consumer, args=(q, )) 
t2 = Thread(target=producer, args=(q, )) 
t1i.start() 


t2.start() 


# Wait for all produced items to be consumed 


q.join() 





当 消 费 者 线程 已 经 处 理 了 菏 项 特定 的 数据 ， 而 





生产 者 线程 需要 对 此 立刻 感知 的 话 ， 那 么 就 应 该 将 
发 送 有 的 数据 和 一 个 Event 对 象 配 对 在 一 起 ， 这 样 就 
允许 生产 者 线程 可 以 监视 这 一 过 程 。 示 例如 下 : 








from queue import 


Queue 
from threading Import 


Thread, Event 


# A thread that produces data 


def 


producer (out_q): 
while 


running: 


# Produce some data 


# Make an (data, event) pair and hand it to the consumer 


evt = Event() 


out_q.put((data, evt)) 


# Wait for the consumer to process the item 


evt .wait() 


# A thread that consumes data 


def 


consumer (in_q): 
while 


True: 


# Get some data 


data, evt = in_q.get() 


# Process the data 


# Indicate completion 


evt.set() 





12.3.3 ”讨论 


把 多 线程 程序 按照 条 单 的 队列 机 制 来 实现 ， 这 
对 于 保持 程序 的 清晰 性 而 言 通 第 是 一 种 不 错 的 方 
式 。 如 琳 可 以 把 所 有 的 任务 部 分 解 成 用 人 简单 的 线程 
安全 型 队列 来 处 理 ， 融 会 发 现 不 需要 用 锁 和 其 他 的 
底层 同步 原 语 把 程序 并 得 一 团 灶 了 。 此 外 ， 使 用 队 
列 进行 通信 党 第 使 得 程序 的 设计 可 以 在 稍 后 扩展 到 
其 他 关 型 的 基于 消息 通信 的 模式 上 。 例 如 ， 可 以 将 
程序 分 解 为 多 个 进程 ， 甚 至 做 成 分 布 式 系统 ， 而 这 
TIARAS m BET ERIE TF AR RS AH EY CH o 


一 个 值得 注意 的 地 方 是 ， 在 线程 中 使 用 队列 
时 ， 将 某 个 数据 放 入 队列 并 不 会 产生 该 数据 的 拷 
贝 。 因 此 ， 通 信 过 程 实际 上 涉及 在 不 同 的 线程 间 传 
递 对 象 的 引用 。 如 果 需 要 关心 共享 状态 ， 那 么 只 传 
递 不 可 变 的 数据 结构 〈 即 ， 整 数 、 字 符 串 或 者 元 
ZH) ， 要 么 就 对 排队 的 数据 做 深 拷贝 ， 这 就 显得 合 
情 合 理 了 。 示 例如 下 : 



































from queue import 


Queue 
from threading import 


Thread 
import copy 


# A thread that produces data 


def 


producer (out_q): 
while 


True: 


# Produce some data 


out_q.put(copy.deepcopy(data) ) 


# A thread that consumes data 


def 


consumer (in_q): 
while 


True: 


# Get some data 


data = in_q.get() 


# Process the data 





Queue 对 和 象 所 供 的 一 些 和 额外 功能 被 证 明 在 特定 





的 上 下 文中 是 有 帮助 的 。 如 果 通 过 一 个 可 选 的 大 小 
参数 来 创建 Queue 对 象 ， 例 如 Queue(N)， 那 么 这 就 
在 putO 操 作 阻 塞 生产 者 线程 之 前 对 可 以 入 队列 的 元 
素 个 数 进行 了 限制 。 如 果 在 生产 者 产生 数据 和 消费 
者 处 理 数 据 的 速度 上 存在 差异 时 ， 给 队列 可 容纳 的 
元 际 个 数 设 定 一 个 上 限 值 就 显得 很 有 意义 了 。 例 

如 ， 如 果 生 产 者 产生 数据 的 速度 比 消 费 数据 的 速度 
快 得 多 时 。 另 一 方面 ， 当 队列 满 时 将 其 阻塞 同样 也 
会 在 程序 中 产生 意外 的 连锁 效应 ， 可 能 导致 出 现 死 
锁 或 者 运行 效率 低下 。 总 的 来 说 ， 线 程 间 通信 的 控 
制 流 是 一 个 看 似 简 单 实则 困难 的 问题 。 如 果 曾 经 发 
现 目 己 试图 通过 调整 队列 的 大 小 来 修正 问题 ， 那 么 





























这 就 表明 程序 的 设计 不 够 健壮 或 者 存在 固有 的 扩展 


问题 。 


getO0 和 put(0 方 法 都 文 持 非 阻 坚 和 超时 机 制 。 示 
例如 下 : 





import queue 


q = queue.Queuel() 


try 


data = q.get(block=False) 
except 


queue.Empty: 


q.put(item, block=False) 
except 


queue. Full: 


data = q.get(timeout=5.0) 
except 


queue.Empty: 











这 两 种 机 制 都 可 用 来 避免 在 特定 的 队列 操作 上 
无 限期 阻塞 下 去 的 问题 。 比 如 ， 可 以 用 非 阻 塞 的 
putO 配 合 固 定 大 小 的 队列 来 实现 当 队 列 满 时 不 同类 
型 的 处 理 方法 。 比 如 ， 可 以 生成 一 条 日 音信 息 然 后 
将 数据 丢弃 : 





def 


producer(q): 


try 


q.put(item, block=False) 
except 


queue.Full: 


log.warning('queued item %r discarded!', item) 





如 果 想 让 消费 者 线程 周期 性 地 放弃 q.get() 这 样 
BRIE, MEF Et BR ARENE 
(termination flag, 见 12.1 节 ) 这样 的 情况 ， 那 么 





超时 机 制 是 很 有 用 的 。 





_running = True 


def 


consumer (q): 
while 


_running: 
try 


item = q.get(timeout=5.0) 


# Process item 


except 


queue.Empty: 
pass 





最 后 ， 这 里 还 有 一 些 很 实用 的 方法 ， 比 如 
q.qsize0、d.ful0、dq.emptyO0， 它 们 能 够 告诉 我 们 队 
列 的 当前 大 小 和 状态 。 但 是 ， 请 注意 所 有 这 些 方法 
在 多 线程 环境 中 都 是 不 可 靠 的 。 例 如 ， 对 q.emptyO) 
的 调用 可 能 会 告诉 我 们 队列 是 空 的 ， 但 是 在 完成 这 
个 调用 的 同时 ， 男 一 个 线程 可 能 已 经 往 队 列 中 添加 





了 一 个 元 素 。 坦 白 讲 ， 在 编写 代码 时 最 好 不 要 依赖 
这 些 函 数 。 


12.4 对 临界 区 加 锁 


12.4.1 问题 





我 们 的 程序 用 到 了 多 线程 ， 我 们 想 对 临界 区 进 
行 加 锁 处 理 以 避免 出 现 竞 态 条 件 (race 
condition) 。 


12.4.2 ”解决 方案 


要 想 让 可 变 对 象 安全 地 用 在 多 线程 环境 中 ， 可 
以 利用 threading 库 中 的 Lock 对 象 来 解决 ， 示 例如 
下 : 





import threading 


class SharedCounter 


A counter object that can be shared by multiple threads. 


def 


__ init__(self, initial_value = 0): 


self. value = initial_value 


self. _value_lock = threading.Lock() 


def 


incr(self,delta=1): 


Increment the counter with locking 


with 


self. _value_lock: 


self. value += delta 


def 


decr (self, delta=1): 


Decrement the counter with locking 


with 


self._value_lock: 


self. Value -= delta 


当 使 用 with 语句 时 ，Lock 对 象 可 确保 产生 互 斥 
的 行为 一 一 也 就 是 说 ， 同 一 时 间 只 人 允许 一 个 线程 执 
行 with 语 句 块 中 的 代码 。with 语 句 会 在 执行 缩 进 的 
代码 块 时 获取 到 锁 ， 当 控制 流离 开 缩 进 的 语句 块 时 
释放 这 个 锁 。 





12.4.3 讨论 


线程 的 调度 从 本 质 上 来 说 是 非 确 定性 的 。 正 因 
为 如 此 ， 在 多 线程 程序 中 如 果 不 用 好 锁 束 会 使 得 数 
据 被 随机 地 破坏 掉 ， 以 及 产生 我 们 称 之 为 苋 态 条 件 
的 奇怪 行为 。 要 避免 这 些 问 题 ， 只 要 共享 的 可 变 状 
态 需 要 被 多 个 线程 访问 ， 那 么 束 得 使 用 锁 。 

在 比较 老 的 Python 代 码 中 ， 我 们 常会 看 到 显 式 


aia 的 动作 。 例 如 ， 对 上 面 的 例子 稍 作 
BMN: 

















import threading 


class SharedCounter 


A counter object that can be shared by multiple threads. 


def 


__init__(self, initial_value = 0): 


self. value = initial_value 


self. _value_lock = threading.Lock() 


def 


incr(self,delta=1): 


Increment the counter with locking 


self._value_lock.acquire() 


self. value += delta 


self. _value_lock.release() 


def 


decr (self, delta=1): 


Decrement the counter with locking 


self. _value_lock.acquire() 


self. value -= delta 


self. _value_lock.release() 





采用 with 语句 会 更 加 优雅 ， 也 不 容易 出 错 








FOF re WO AREY A EE BE E S E 
AE n HJ es w & Val FA release() 77 iA) E ze MHL 
(在 这 两 种 情况 下 ，with 语 句 会 确保 总 是 释放 
BL) 


有 要 避免 可 能 出 现 的 死 锁 ， 用 到 了 锁 的 程序 应 该 
以 这 样 的 方式 来 编写 ， 即 ， 每 个 线程 一 次 只 允许 获 
取 一 把 锁 。 如 采 无 法 做 到 ， 我 们 可 能 需要 在 程序 中 
引入 更 为 局 级 的 避免 死 锁 的 技术 ， 我 们 将 在 12.5 节 











中 进一步 讨论 。 


在 threading 库 中 我 们 会 肥 现 还 有 其 他 的 同步 原 
语 ， 比 如 RLock 和 Semaphore 对 象 。 一 般 来 说 ， 这 些 
对 象 都 有 特殊 的 用 途 ， 不 应 该 用 这 些 对 象 对 可 变 状 
态 做 简单 的 加 锁 处 理 。RLock 被 称 为 可 重 入 锁 ， 它 
可 以 被 同 一 个 线程 多 次 获取 ， 主 要 用 来 编写 基于 锁 
的 代码 ， 或 者 基于 “监视 器 ”的 同步 处 理 。 当 茶 个 类 
持 有 这 种 类 型 的 锁 时 ， 只 有 一 个 线程 可 以 使 用 类 中 
的 全 部 函数 或 者 方法 。 例 如 ， 可 以 将 SharedCounter 
类 实现 为 如 下 形式 : 














import threading 


class SharedCounter 


A counter object that can be shared by multiple threads. 


_lock = threading.RLock() 
def 


__init__(self, initial_value = 0): 


self. value = initial_value 


def 


incr(self,delta=1): 


Increment the counter with locking 


with 


SharedCounter. lock: 


self. value += delta 


def 


decr(self,delta=1): 


Decrement the counter with locking 


with 


SharedCounter. lock: 


self.incr(-delta) 





这 份 代 码 中 只 有 一 个 作用 于 整个 类 的 锁 ， 它 被 
所 有 的 类 实例 所 共享 。 不 再 将 锁 绑 定 到 每 个 实例 的 
可 变 状 态 上 ， 现 在 这 个 锁 是 用 来 同步 类 中 的 方法 
的 。 具 体 来 说 ， 这 个 锁 可 确保 每 次 只 有 一 个 线程 可 
以 使 用 类 中 的 方法 。 但 是 和 标准 的 锁 不 同 的 地 方 在 
于 ， 对 于 已 经 持 有 了 锁 的 方法 可 以 调用 同样 使 用 了 
这 个 锁 的 其 他 方法 (参考 decr() 方 法 的 实现 ) 。 


这 个 实现 的 特点 之 一 是 无 论 创 建 了 多 少 个 
counter 实 例 ， 都 只 会 有 一 个 锁 存 在 。 因 此 ， 当 有 大 
量 counter 对 象 存 在 时 ， 这 种 方法 对 内 存 的 使 用 效率 
要 高 很 多 。 但 是 ， 可 能 存在 的 缺点 是 在 使 用 了 大 量 
线程 且 需 要 频繁 更 新 counter 的 程序 中 ， 这 么 做 会 产 
生 更 多 的 锁 争 用 问题 。 


Semaphore 对 象 是 一 种 基于 共 孕 计数 器 的 同步 
原 语 。 如 果 计 数 需 非 零 ， 那 么 with 语句 会 递减 计数 
噩 并 且 人 允许 线程 继续 执行 。 当 with 语句 块 结束 时 计 
数 句 会 得 到 递增 。 如 果 计 数 器 为 零 ， 那 么 执行 过 程 
会 被 阻塞 ， 直 到 由 男 一 个 线程 来 递增 计数 右 为 止 。 
尽管 Seamaphore 可 以 和 标准 的 Lock 对 象 一样 以 相同 
的 方式 来 使 用 ， 但 是 由 于 Semaphore 的 实现 更 为 复 
杂 ， 这 会 对 程序 的 性 能 带 来 负面 影响 。 除 了 人 简单 的 
加 锁 功 能 之 外 ，Semaphore 对 象 对 于 那些 涉及 在 线 
程 间 发 送信 号 或 者 需要 实现 节 流 (throttling) 处 理 
的 应 用 中 更 加 有 有 用。 例如， 如 果 想 在 代码 中 限制 并 
































及 的 总 数 ， 可 以 使 用 Semaphore 来 处 理 : 


from threading import 


Semaphore 
import urllib.request 


# At most, five threads allowed to run at once 


_fetch_url_sema = Semaphore(5) 


def 


fetch_url(url): 
with 


_fetch_url_sema: 
return 


urllib.request.urlopen(url) 








如 果 对 于 线程 同步 原 语 背后 的 理论 和 实现 感 兴 
凶 的 话 ， 可 以 参考 几乎 任何 一 本 有 关 换 作 系统 的 教 
HB. 


12.5 ”避免 死 锁 
12.5.1 问题 


我 们 正在 编写 一 个 多 线程 程序 ， 线 程 一 次 需要 
获取 不 止 一 把 锁 ， 同 时 还 要 避免 出 现 死 锁 。 


12.5.2 ”解决 方案 


在 多 线程 程序 中 ， 出 现 死 锁 的 常见 原因 就 是 线 
程 一 次 尝试 获取 了 多 个 锁 。 例 如 ， 如 果 有 一 个 线程 
获取 到 第 一 个 锁 ， 但 是 在 壬 试 获取 第 二 个 锁 时 阻 置 
了 ， 那 么 这 个 线程 束 有 可 能 会 阻 禾 住 其 他 线程 的 执 
行 ， 进 而 使 得 整个 程序 僵 死 。 


避免 出 现 死 锁 的 一 种 解雇 方案 驶 是 给 程序 中 的 
每 个 锁 分 配 一 个 唯一 的 数字 编写， 并且 在 获取 多 个 
锁 时 只 按照 编写 的 升序 方式 来 获取 。 利 用 上 下 文 省 
理 占 来 实现 这 个 机 制 非常 简单 ， 示 例如 下 : 




















import threading 


from contextlib import 


contextmanager 


# Thread-local state to stored information on locks already acqu 


_local = threading.local() 


@contextmanager 
def 


acquire(*locks): 


# Sort locks by object identifier 


locks = sorted(locks, key=lambda 


x: id(x)) 


# Make sure lock order of previously acquired locks is not viola 


acquired = getattr(_local, 'acquired', []) 
if 


acquired and 


max(id(lock) for 


lock in 


acquired) >= id(locks[0]): 
raise RuntimeError 


('Lock Order Violation' ) 


# Acquire all of the locks 


acquired.extend(locks) 


_local.acquired = acquired 
try 


for 


lock in 


locks: 


lock.acquire( ) 
yield 


finally 


# Release locks in reverse order of acquisition 


for 
lock in 


reversed(locks): 


lock. release() 
del 


acquired[-len(locks): ] 





要 使 用 这 个 上 下 文 管理 器 ， 只 用 按照 正常 的 方 











式 来 分 配 锁 对 象 ， 但 是 当 想 同 个 或 多 个 锁 打 交道 
WEH acquire K. Ain: 





import threading 


x_lock 
y_lock 


threading.Lock() 
threading.Lock() 


def 


thread_1(): 
while 


True: 
with 


acquire(x_lock, y_lock): 
print 

('Thread-1' ) 

def 


thread_2(): 
while 


True: 
with 


acquire(y_lock, x_lock): 
print 


('Thread-2' ) 


t1 = threading. Thread(target=thread_1) 
t1.daemon = True 
t1.start() 


t2 = threading. Thread(target=thread_2) 
t2.daemon = True 
t2.start() 


如 果 运行 这 个 程序 ， 就 会 发 现 程序 运行 得 很 
好 ， 而 且 永远 不 会 出 现 死 锁 尽管 在 每 个 函数 中 
对 锁 的 获取 是 以 不 同 的 顺序 来 指定 的 。 


这 个 例子 的 关键 之 处 束 在 于 acquire() 函 数 的 第 
一 条 语句 : 根据 对 象 的 数字 编写 对 锁 进行 排序 。 通 
过 对 锁 进 行 排序 ， 无 论 用 户 按照 什么 顺序 将 锁 提 供 
给 acquire0 函 数 ， 它 们 总 是 会 按照 统一 的 顺序 来 获 
HY. 

















这 个 解决 方案 中 用 到 了 线程 本 地 存储 (thread- 
local storage) 来 解决 一 个 小 问题 。 即 ， 如 果 有 多 个 
acquire() 操 作 骸 套 在 一 起 ， 可 以 检测 可 能 存在 的 死 
锁 情 况 。 人 例如， 假设 编写 了 如 下 的 代码 : 








import threading 


x_lock = threading.Lock( ) 
y_lock = threading.Lock() 


def 


thread_1(): 
while 


True: 


with 


acquire(x_lock): 
with 


acquire(y_lock): 
print 


('Thread-1' ) 
def 


thread_2(): 
while 


True: 
with 


acquire(y_lock): 
with 


acquire(x_lock): 
print 


('Thread-2' ) 
t1 = threading. Thread(target=thread_1) 


ti.daemon = True 
t1.start() 


t2 = threading. Thread(target=thread_2) 
t2.daemon = True 
t2.start() 





如 果 运 行 这 个 版 本 的 程序 ， 其 中 一 个 线程 将 会 
ANS HE Se Fas TA Tb 





Exception in thread Thread-1: 
Traceback (most recent call last): 
File "/usr/local/lib/python3.3/threading.py", line 639, in _bog 
self.run() 
File "/usr/local/lib/python3.3/threading.py", line 596, in run 
self._target(*self._args, **self._kwargs) 
File "deadlock.py", line 49, in thread_1 
with 


acquire(y_lock): 
File "/usr/local/lib/python3.3/contextlib.py", line 48, in _e 
return 


next(self.gen) 
File "deadlock.py", line 15, in acquire 
raise RuntimeError 


("Lock Order Violation") 
RuntimeError: Lock Order Violation 
>>> 





IS te FEE PSS, BU BES AGRE RBS 
记 住 它们 已 经 获取 到 的 锁 的 顺序 。acquireO 函 数 会 
检查 之 前 获取 到 的 锁 的 列表 ， 并 对 锁 的 顺序 做 强制 
性 的 约束 : 先 获 取 到 的 锁 的 对 象 ID 必须 比 后 获取 的 
锁 的 ID 要 小 。 


12.5.3 ”讨论 


在 多 线程 程序 中 ， 死 锁 古 一 个 老生 常 谈 的 问题 
(也 是 操作 系统 教科 书 上 的 常见 主题 》。 基 本 原则 
就 是 ， 只 要 可 以 保证 线程 一 次 只 持 有 一 把 锁 ， 那 么 
程序 下 不 会 出 现 死 锁 。 但 是 ， 一 旦 在 同一 时 间 获 取 
了 多 个 锁 ， 那 么 什么 事情 都 有 可 能 及 生 。 


检测 死 锁 和 从 死 锁 中 恢复 是 一 个 极其 环 手 的 问 
Cl, MAR ACHE Se EAW, A 
FH ARAM SEM AT KAZ TRENIE VY id REN a8 FY 
使 用 。 随 着 线程 的 运行 ， 它 们 会 周期 性 地 重 置 定 时 
aa» AR WAST EBA AR EKRA. (He; 
BOAR AEE PC, AI JAE a dc 2 a 
时 。 此 时 ， 程 序 就 通过 重新 局 动 来 完成 <“ 恢复 ”。 


而 避免 死 锁 采用 的 则 是 为 一 种 不 同 的 集 略 ， 
即 ， 以 一 种 根本 瓯 不 会 让 程序 进入 死 锁 状态 的 方式 
来 使 用 锁 。 前 面 介 绍 的 解决 方案 中 ， 总 是 严格 按照 
对 象 ID 的 升序 来 获取 锁 ， 这 个 方法 可 以 在 数学 上 证 
明 能 够 吉 免 死 锁 状 态 。 我 们 把 证 明 的 过 程 就 留 给 读 
者 当做 练习 吧 “要 后 束 是 ， 严 格 以 递增 的 顺序 来 获 
取 锁 就 不 会 出 现 锁 的 循环 依赖 ， 而 这 正 是 出 现 死 锁 
的 必要 条 件 ) 。 


作为 最 后 一 个 例子 ， 我 们 将 讨论 一 个 经 典 的 线 


























程 死 锁 问 题 一 一 即 所 谓 的 “哲学 家 束 餐 问题 *?。 在 这 
个 问题 中 ， 有 5 位 哲学 家 围 坐 在 条 边 ， 果 上 有 5 碗 米 
饭 和 5 文 俩 子 。 每 位 哲学 家 代表 着 一 个 独立 的 线 
程 ， 而 每 文 货 子 代表 一 把 锁 。 在 这 个 问题 中 ， 哲 学 
家 要 么 坐 厦 思考 要 么 束 吃 米饭 。 但 是 ， 要 吃 到 米 
饭 ， 藻 学 家 需要 两 文 僻 子 。 不 羊 的 是 ， 如 果 所 有 的 
否 学 家 都 伸 手 合 他 们 左手 按 的 那 文 俩 子 ， 那 么 他 们 
只 能 全 都 坐 在 那里 ， 手 里 只 拿 痢 一 文 合 子 最终 饭 
和 死 。 真 是 可 人 的 景象 。 

















问题 的 简单 实现 ， 可 完全 避免 死 锁 ; 





import threading 


# The philosopher thread 


def 


philosopher(left, right): 
while 


True: 
with 


acquire(left, right): 
print 


(threading.currentThread(), ‘eating' ) 


# The chopsticks (represented by locks) 


NSTICKS = 5 
chopsticks = [threading.Lock() for 


range(NSTICKS) ] 


# Create all of the philosophers 


for 


range(NSTICKS): 


t = threading. Thread(target=philosopher, 


args=(chopsticks[n],chopsticks[(n+1) % NSTICKS] ) ) 


t.start() 








最 后 但 同样 值得 注意 的 是 ， 为 了 避免 死 锁 ， 所 
有 的 锁 都 必须 使 用 我 们 前 面 给 出 的 acquireO 函 数 来 
i. WRENS A PERRIN, HA 
这 个 避免 死 锁 的 算法 就 不 能 奏效 了 。 








12.6 ”保存 线程 专 有 状态 


12.6.1 问题 





我 们 需要 保存 当前 运行 线程 的 专 有 状态 ， 这 个 
状态 对 其 他 线程 是 不 可 见 的 。 


12.6.2 ”解决 方案 


有 时 候 在 多 线程 程序 中 ， 我 们 需要 保存 专属 于 
当前 运行 线程 的 状态 。 为 了 做 到 这 点 ， 可 以 通过 
threading.local0 来 创建 一 个 线程 本 地 存储 对 象 。 在 
这 个 对 象 上 保存 和 读 取 的 属性 只 对 当前 运行 的 线程 
可 见 ， 其 他 线程 无 法 感知 。 


作为 使 用 线程 局 部 存储 的 一 个 有 趣 实例 ， 考 虑 
一 下 LazyConnection 上下文 管理 融 类 ， 我 们 在 8.3 贡 
中 首次 定义 了 这 个 类 。 下 面 是 稍微 修改 过 的 版 本 ， 
可 以 安全 应 用 于 多 线程 环境 中 : 














from socket import 


socket, AF_INET, SOCK_STREAM 
import threading 


class LazyConnection 


def 


__init__(self, address, family=AF_INET, 


self.address = address 


self.family = AF_INET 


self.type = SOCK_STREAM 


self.local = threading.local() 


def 


__enter__(self): 
if 


hasattr(self.local, 'sock'): 
raise RuntimeError 


('Already connected' ) 


type=SOCK_STREAM): 


self.local.sock = socket(self.family, self.type) 


self.local.sock.connect(self.address) 
return 


self.local.sock 


def 


__exit__(self, exc_ty, exc_val, tb): 


self.local.sock.close() 
del 


self.local.sock 





在 这 份 代 码 中 ， 请 仔细 观察 对 self.local 属 性 的 
使 用 。 它 被 初始 化 为 threading.local0 的 实例 。 之 
后 ， 其 他 方法 操作 的 socket 都 是 被 保存 为 
self.local.sock 的 形式 。 这 就 中 以 使 得 
LazyConnection 的 实例 可 以 安全 用 于 多 线程 环境 中 
So API: 





from functools import 


partial 
def 


test(conn): 
with 


conn as 


s.send(b'GET /index.html HTTP/1.0\r\n 


') 


s.send(b'Host: www.python.org\r\n 


') 


s.send(b'\r\n 


p. 


resp = b''.join(iter(partial(s.recv, 8192), b'')) 


print 


('Got {} bytes'.format(len(resp) ) ) 


if 


_name == ' main  : 


conn = LazyConnection(('www.python.org', 80)) 


t1 = threading. Thread(target=test, args=(conn, ) ) 


t2 = threading. Thread(target=test, args=(conn, )) 


t1i.start() 


t2.start() 


t1.join( ) 


t2.join( ) 





这 么 做 能 正常 工作 的 原因 在 于 每 个 线程 实际 上 





创建 了 上 自己 专属 的 socket 连 接 (以 self.local.sock 的 形 
式 保存 〉 。 因 此 ， 当 不 同 的 线程 在 socket 上 执行 操 
作 时 ， 它 们 并 不 会 互相 产生 影响 ， 因 为 它们 都 是 在 








不 同 的 socket 上 完成 操作 的 。 
12.6.3 ”讨论 


在 大 部 分 程序 中 ， 创 建 和 操作 线程 专 有 状态 都 
不 会 出 现 什么 问题 。 但 是 万 一 出 现 问题 了 ， 通 常 是 
因为 多 个 线程 使 用 了 同一 个 对 象 ， 而 该 对 象 需要 操 
作 某 种 系统 资源 ， 比 如 说 socket 或 者 文件 。 我 们 不 
能 让 一 个 单独 的 socket 对 象 被 所 有 线程 共享 ， 因 为 
如 果 有 多 个 线程 同时 对 socket 进 行 读 或 号， 那么 就 
会 出 现 混 乱 。 线 程 专 有 存储 通过 让 这 种 资源 只 对 一 
个 线程 可 见 ， 解 决 了 这 个 问题 。 


在 本 节 示 例 中 ， 使 用 threading.local() 使 得 
LazyConnection 类 文 持 每 个 线程 一 条 连接 ， 而 不 是 
之 前 的 整个 进程 束 一 条 连接 。 这 是 一 个 微妙 但 有 趣 
的 区 别 。 


在 底层 ，threading.local() 实 例 为 每 个 线程 维护 
着 一 个 单独 的 实例 字典 。 所 有 对 实例 的 常见 操作 比 
如 获取 、 设 定 以 及 删除 都 只 是 作用 于 每 个 线程 专 有 
的 字典 上 。 每 个 线程 使 用 一 个 单独 的 字典 ， 正 是 这 
一 事实 使 得 不 同 线程 的 数据 得 到 隔离 。 














12.7 创建 线程 池 
12.7.1 问题 


我 们 想 创 建 一 个 工作 者 线程 池 用 来 处 理 客户 端 
连接 ， 或 者 完成 其 他 类 型 的 工作 。 





12.7.2 ”解决 方案 





concurrent.futures 库 中 包含 有 一 个 
ThreadPoolExecutor 类 可 用 来 实现 这 个 目的 。 下 面 的 
示例 是 一 个 简单 的 TCP 服 务 器 ， 使 用 线程 池 来 服务 
7 J i: 








from socket import 


AF_INET, SOCK_STREAM, socket 
from concurrent.futures import 


ThreadPoolExecutor 


def 


echo_client(sock, client_addr): 


Handle a client connection 


print 


('Got connection from', client_addr) 
while 


True: 


msg = sock.recv(65536 ) 
if not 


msg: 
break 


sock.sendall(msg) 
print 


('Client closed connection' ) 


sock.close() 


def 


echo_server(addr ): 


pool = ThreadPoolExecutor (128) 


sock = socket(AF_INET, SOCK_STREAM) 


sock.bind(addr ) 


sock.listen(5) 


while 


True: 


client_sock, client_addr = sock.accept() 


pool.submit(echo_client, client_sock, client_addr) 


echo_server(('',15000) ) 





如 果 想 手动 创建 自己 的 线程 池 ， 使 用 Queue 来 
实现 通常 是 足够 简单 的 。 下 面 的 例子 对 上 述 代码 做 
了 了 修改， 手动 实现 了 线程 池 : 








from socket import 


socket, AF_INET, SOCK_STREAM 
from threading import 


Thread 
from queue import 


Queue 


def 


echo_client(q): 


Handle a client connection 


sock, client_addr = q.get() 
print 


('Got connection from', client_addr) 
while 


True: 


msg = sock.recv(65536) 
if not 


msg: 
break 


sock.sendall(msg) 
print 


('Client closed connection' ) 


sock.close() 


def 


echo_server(addr, nworkers): 


# Launch the client workers 


range(nworkers): 


t = Thread(target=echo_client, args=(q, )) 


t.daemon = True 


t.start() 


# Run the server 


sock = socket(AF_INET, SOCK_STREAM) 


sock.bind(addr ) 


sock.listen(5) 
while 


True: 


client_sock, client_addr = sock.accept() 


q.put((client_sock, client_addr) ) 


echo_server(('',15000), 128) 





应 该 使 用 ThreadPoolExecutor 而 不 是 手动 实现 





线程 池 。 这 么 做 的 优势 在 于 使 得 任务 的 提交 者 能 够 
更 容易 从 调用 函数 中 取得 结果 。 例 如 ， 可 以 像 这 样 
Fay NS: 








from concurrent.futures import 


ThreadPoolExecutor 
import urllib.request 


def 


fetch_url(url): 


u = urllib.request.urlopen(url) 


data = u.read() 
return 


data 


pool = ThreadPoolExecutor (10) 
# Submit work to the pool 


pool.submit(fetch_url, 'http://www.python.org' ) 
pool.submit(fetch_url, 'http://www.pypy.org' ) 


5 几 


# Get the results back 


a.result() 
b.result() 








示例 中 的 结果 对 象 ( 即 ，a 和 b) 负责 处 理 所 有 
需要 完成 的 阻塞 和 同步 任务 ， 从 工作 者 线程 中 取 回 





数据 。 特 别 是 ，a.resultO 操 作 会 阻塞 ， 直 到 对 应 的 
函数 已 经 由 线程 池 执 行 完毕 并 返回 了 结果 为 止 。 


12.7.3 ”讨论 
一 般 来 说 ， 应 该 避免 编写 那 种 允许 线程 数量 无 





限 增长 的 程序 。 比 如 ， 看 看 下 面 这 个 服务 需 实 现 ; 





from threading import 


Thread 
from socket import 


socket, AF_INET, SOCK_STREAM 


def 


echo_client(sock, client_addr): 


Handle a client connection 


print 


('Got connection from', client_addr) 
while 


True: 


msg = sock.recv(65536) 
if not 


msg: 
break 


sock.sendall(msg) 
print 


('Client closed connection' ) 


sock.close() 


def 


echo_server(addr, nworkers): 


# Run the server 


sock = socket(AF_INET, SOCK_STREAM) 


sock.bind(addr) 


sock.listen(5) 


while 


True: 


client_sock, client_addr = sock.accept() 


t = Thread(target=echo_client, args=(client_sock, client_addr ) ) 


t.daemon = True 


t.start() 


echo_server(('',15000) ) 
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化 好 的 线程 地， 残 可 以 小 心地 为 所 能 文 持 的 并 有 总 
数 设 定 一 个 上 限 值 。 


我 们 可 能 会 担心 创建 大 量 线程 所 产生 的 影 啊 。 


但 是 ， 在 现代 的 系统 上 创建 拥有 几 千 个 线程 的 线程 
池 是 不 会 有 什么 问题 的 。 此 外 ， 让 一 千 个 线程 等 待 
工作 并 不 会 对 其 他 部 分 的 代码 产生 性 能 上 的 影响 

(休眠 的 线程 什么 也 不 做 ) 。 当 然 了 ， 如 果 所 有 这 
些 线程 在 同一 时 间 被 唤醒 开始 使 用 CPU 的 话 那 就 是 
另 一 回 事 了 [一 一 尤其 在 有 全 局 解释 器 锁 (GIL) 
的 情况 下 更 是 如 此 。 一 般 来 说 ， 线 程 池 只 适用 于 处 
理 WVO 密 集 型 的 任务 。 


创建 大 型 的 线程 池 需 要 考虑 的 一 个 方面 就 古 对 
内 存 的 使 用 。 比 如 说 ， 在 OS X 上 如 果 创 建 了 两 干 个 
线程 ， 系 统 显示 Python 进程 占用 了 超过 9 GB 的 虚拟 
内 存 。 但 是 ， 这 实际 上 是 有 一 些 误导 的 。 当 创建 一 
个 线程 时 ， 操 作 系统 会 占用 一 段 虚拟 内 存 来 保存 线 
程 的 执行 栈 (通常 有 8 MB) 。 这 段 内 存 只 有 一 小 
部 分 会 实际 映射 到 物理 内 存 上 。 因 此 ， 如 采 看 的 更 
仔细 一 些 ， 束 会 发 现 Python 进 程 占用 的 物理 内 存 远 
比 虚 拟 内 存 要 小 《〈 例 如， 创建 两 和 于 个 线程 只 使 用 了 
70 MB 物理 内 存 ， 不 是 9GB) 。 如 果 需 要 考虑 虚拟 
AE AZ), HY DA H threading.stack_size() KA BOK 
将 栈 的 大 小 调 低 。 例 如 : 























import threading 


threading.stack_size(65536) 


pO 


如 果 增 加 这 个 调用 ， 然 后 重复 试验 创建 两 千 个 
线程 ， 就 会 发 现 Python 进 程 现 在 只 使 用 了 大 约 210 
MB 虚拟 内 存 ， 但 使 用 的 物理 内 存 总 量 保 持 不 变 。 
注意 ， 线 程 栈 的 大 小 必须 至 少 有 32768 字 节 ， 通 常 
会 限制 该 值 为 系统 内 存 页面 大 小 〈40968192 等 ) 的 


整数 倍 。 





12.8 ”实现 简单 的 并 行 编程 
12.8.1 问题 
我 们 有 一 个 执行 了 大 量 CPU 密 集 型 工作 的 程 


序 ， 现 在 想 让 它 利 用 多 个 CPU 的 优势 运行 得 更 快 
些 。 





12.8.2 ”解决 方案 


concurrent.futures 库 中 提供 了 一 个 
ProcessPoolExecutor 类 ， 可 用 来 在 单独 运行 的 
Python 解 释 器 实例 中 执行 计算 密集 型 的 函数 。 但 是 
为 了 使 用 这 个 功能 ， 首 先 得 有 一 些 计算 密集 型 的 任 
。 让 我 们 以 一 个 简单 但 有 实际 意义 的 例子 来 
说 明 。 


假设 有 一 个 目录 ， 里 面 全 是 gzip 压 缩 格式 的 
Apache Web 服 务 器 的 日 志文 件 : 





























logs/ 


20120701.log.gz 


20120702.log.gz 
20120703.log.gz 
20120704.log.gz 
20120705.log.gz 


20120706.log.gz 


- [10/Jul/2012:00:18:50 -0500] "GET /robots.txt . 
- [10/Jul/2012:00:18:51 -0500] "GET /ply/ ... 


61.135.216.105 - - [10/Jul1/2012:00:20:04 -0500] "GET /blog/atom. 








下 面 是 一 个 简单 的 脚本 ， 它 读 取 数据 并 标识 出 
所 有 访问 过 robots.txt 文 件 的 主机 .: 


# findrobots.py 


import gzip 


import io 


import glob 


def 


find_robots(filename): 


Find all of the hosts that access robots.txt in a single log fil 


robots = set() 
with 


gzip.open(filename) as 


for 
line in 


io.TextIOWrapper(f,encoding='ascii'): 


fields = line.split() 
if 


fields[6] == '/robots.txt': 


robots.add(fields[0] ) 
return 


robots 


def 


find_all_robots(logdir): 


Find all hosts across and entire sequence of files 


files = glob.glob(logdir+'/*.1log.gz') 


all_robots = set() 
for 


robots in 


map(find_robots, files): 


all_robots.update(robots) 
return 


all_robots 


if 


—__name__ == ' main __': 


robots = find_all_robots('logs' ) 
for 


ipaddr in 


robots: 
print 


(ipaddr ) 





上 面 的 程序 以 常用 的 map-reduce 风 格 中 来 编 
写 。 了 水 数 find_robots(0) 被 映射 到 一 系列 的 文件 名 上 ， 





将 所 有 得 到 的 结果 合并 成 一 个 单独 的 结 采 《 即 
find_all _ robotsO) 函 数 中 设置 的 all_ robots) 。 





现在 假设 想 修 改 这 个 程序 以 利用 多 个 CPU 核 
心 。 这 是 很 容易 实现 的 只 需 把 mapO 蔡 换 成 一 
个 类 似 的 操作 ， 并 让 它 在 concurrent.futures 库 中 的 
进程 池 中 执行 即 可 。 下 面 是 稍微 修改 过 的 代码 : 








# findrobots.py 


import gzip 


import io 


import glob 


from concurrent import 


futures 


def 


find_robots(filename) : 


Find all of the hosts that access robots.txt in a single log fil 


robots = set() 
with 


gzip.open(filename) as 


for 
line in 


io.TextIOWrapper(f,encoding='ascii'): 


fields = line.split() 
if 


fields[6] == '/robots.txt': 


robots.add(fields[0] ) 
return 


robots 


def 


find_all_robots(logdir): 


Find all hosts across and entire sequence of files 


files = glob.glob(logdir+'/*.1log.gz') 


all_robots = set() 
with 


futures.ProcessPoolExecutor() as 


pool: 
for 


robots in 


pool.map(find_robots, files): 


all_robots.update(robots) 
return 


all_robots 


if 


—__name__ == ' main __': 


robots = find_all_robots('logs' ) 
for 


ipaddr in 


robots: 
print 


(ipaddr ) 





经 过 这 次 修改 ， 现 在 这 个 脚本 在 我 们 的 四 核 机 





器 上 运行 时 要 比 之 前 的 版 本 快 3.5 倍 ， 得 到 的 结果 完 
全 相同 。 实 际 的 性 能 会 根据 机 器 上 的 CPU 个 数 而 有 
所 不 同 。 

12.8.3 ”讨论 


ProcessPoolExecutor 的 典型 用 法 是 这 样 的 : 





from concurrent .futures import 


ProcessPoolExecutor 


with 


ProcessPoolExecutor() as 


pool: 


do work in 


parallel using pool 





在 底层 ，ProcessPoolExecutor 创 建 了 N 个 独立 运 





行 的 Python 解释 左 ， 这 里 的 N 束 是 在 系统 上 检测 到 
的 可 用 的 CPU 个 数 。 可 以 修改 创建 的 Python 进程 个 
数 ， 只 要 给 ProcessPoolExecutor(N) 提 供 一 个 可 选 的 
参数 即 可 。 进 程 池 会 一 直 运 行 ， 直 到 with 语句 块 中 
的 最 后 一 条 语句 执行 完毕 为 止 ， 此 时 进程 池 束 会 关 
闭 。 但 是 ， 程 序 会 一 直 等 待 所 有 已 经 提交 的 任务 都 
处 理 完毕 为 止 。 

提交 到 进程 池 中 的 任务 必须 定义 成 函数 的 形 
式 。 有 两 种 方法 可 以 提交 任务 。 如 果 想 并 行 处 理 一 
个 列表 推导 式 或 者 map0) 操 作 ， 可 以 使 用 
pool.map(): 


# A function that performs a lot of work 














return 
result 


# Nonparallel code 


results = map(work, data) 


# Parallel implementation 


with 
ProcessPoolExecutor() as 


pool: 


results = pool.map(work, data) 








还 有 一 种 方式 就 是 可 以 通过 pool.submit() 方 法 
来 手动 提交 一 个 单独 的 任务 : 


| 


# Some function 


def 


work(x): 


return 


result 


with 


ProcessPoolExecutor() as 


pool: 


# Example of submitting work to the pool 


future_result = pool.submit(work, arg) 


# Obtaining the result (blocks until done) 


r = future_result.result() 








如 果 手 动 提交 任务 ， 得 到 的 结果 就 是 一 个 





Future 实 例 。 要 获取 到 实际 的 结果 还 需要 调用 它 的 
result(0) 方 法 。 这 么 做 会 阻塞 进程 ， 直 到 完成 了 计算 
并 将 结果 返回 给 进程 池 为 止 。 





与 其 让 进程 阻 坚 ， 也 可 以 提供 一 个 回调 函数 ， 
让 它 在 任务 完成 时 得 到 触发 执行 。 示 例如 下 : 








def 


when_done(r): 
print 


('Got:', r.result()) 


with 


ProcessPoolExecutor() as 


pool: 


future_result = pool.submit(work, arg) 


future_result.add_done_callback(when_done) 








用 户 提供 的 回调 函数 需要 接受 一 个 Future 实 











例 ， 必 须 用 它 才 能 获取 到 实际 的 结果 《〈 即 ， 调 用 它 
的 result(0) 方 法 ) 。 


尺 省 进程 池 使 用 起 来 很 简 竺 ,但 是 在 设计 规模 
更 大 的 程序 时 有 几 个 重要 的 因素 需要 考 夸 。 我 们 在 
这 里 说 明 一 下 ， 各 因 系 间 不 分 先后 顺序 。 


° 这 种 并 行 化 处 理 的 技术 只 适用 于 可 以 将 问 
题 分 解 成 各 个 独立 部 分 的 情况 。 


。 任务 必须 定义 成 普通 的 函数 来 提交 。 实 例 
方法 、 闭 包 或 者 其 他 类 型 的 可 调用 对 象 都 是 不 
支持 并 行 处 理 的 。 


° 函数 的 参数 和 返回 值 必 须 可 兼容 于 pickle 编 
码 。 任 务 的 执行 是 在 单独 的 解释 占 进 程 中 完成 
的 ， 这 中 间 需 要 用 到 进程 间 通 信 。 因 此 ， 在 不 
同 的 解释 器 间 交 换 数 据 必 须要 进行 序列 化 处 
H 




















° 提交 的 工作 函数 不 应 该 维护 持久 的 状态 或 
者 禹 有 副作用 。 际 了 简单 的 日 志 功 能 外 ， 一 旦 
子 进程 启动 ， 将 无 法 控制 它 的 行为 。 因 此 ， 为 
了 让 思路 保持 清晰 ， 最 好 让 每 件 事情 都 保持 简 
蛙 ， 让 任务 在 不 会 修改 执行 环境 的 纯 函数 
(pure-function〉 中 执行 。 


a 进程 池 是 通过 调用 UNIX 上 的 forkO 系 统 调用 
来 创建 的 。 这 么 做 会 殉 隆 出 一 个 Python 解释 器 ， 
在 forkO 时 会 包含 所 有 的 程序 状态 。 在 Windows 
上 ， 这 么 做 会 加 载 一 个 独立 的 解释 器 拷贝 ， 但 
并 不 包含 状态 。 珊 隆 出 来 的 进程 在 首次 调用 
pool.map0 或 者 pool.submitO 方 法 之 前 不 会 实际 运 
AF 0 

















° 当 将 进程 池 和 多 线程 技术 结合 在 一 起 时 需 
要 格外 小 心 。 特 别 是 ， 很 可 能 我 们 应 该 在 创建 
任何 线程 之 前 优先 创建 并 加 载 进 程 池 (例如 ， 
当 程 序 局 动 时 在 主线 程 中 创建 进程 池 ) 。 


12.9 ”如何 规 避 GIL 带 来 的 限制 
12.9.1 问题 


我 们 已 经 明 说 过 全 局 解释 占 锁 (GIL) ， 担 心 
它 会 影 啊 到 多 线程 程序 的 性 能 。 





12.9.2 ”解决 方案 


尽管 Python 完全 支持 多 线程 编程 ， 但 是 在 解释 
占有 的 C 语 言 实 现 中 ， 有 一 部 分 并 不 是 线程 安全 的 ， 
因此 不 能 完全 文 持 并 有 执行。 事实 上 ， 解 释 茵 被 一 
个 称 之 为 全 局 解释 器 锁 CGIL) 的 东西 保护 着 ， 在 
任意 时 刻 只 允许 一 个 Python 线程 投入 执行 。GIL 带 
来 的 最 明显 的 影响 就 是 多 线程 的 Python 程序 无 法 充 
分 利用 多 个 CPU 核心 带 来 的 优势 〈 即 ， 一 个 采用 多 
线程 技术 的 计算 密集 型 应 用 只 能 在 一 个 CPU 上 运 
行 ) 。 


























在 讨论 规避 GIL 的 篆 用 方案 之 前 ， 需 要 重点 强 
调 的 是 ，GIL 只 会 对 CPU 密集 型 的 程序 产生 影响 
《 即 ， 主 要 完成 计算 任务 的 程序 ) 。 如 果 我 们 的 程 
序 主 要 是 在 做 IO 操作 ， 比 如 处 理 网 络 连接 ， 那 么 
选择 多 线程 技术 常常 是 一 个 明智 的 选择 。 因 为 它们 














大 部 分 时 间 都 花 在 等 竺 对 方太 起 连接 上 了 。 实 际 上 
可 以 创建 数 以 千 计 的 Python 线程 ， 一 点 问题 都 没 
有 。 在 现代 的 操作 系统 上 运行 这 么 多 线程 是 不 会 有 
问题 的 ， 因 此 这 不 是 应 该 担心 的 地 方 。 


对 于 CPU 密集 型 的 程序 ， 我 们 需要 对 问题 的 本 
质 做 些 研究 。 例 如 ， 仔 细 选 择 底 层 用 到 的 算法 ， 这 
可 能 会 比 沦 试 将 一 个 没有 优化 过 的 算法 用 多 线程 来 
并 行 处 理 所 带 来 的 性 能 提升 要 高 得 多 。 同 样 地 ， 由 
于 Python 是 解释 型 语言 ， 往 往 只 要 简单 地 将 性 能 ; 
键 的 代码 转移 到 用 C 语 言 扩 展 的 模块 中 就 可 能 得 到 
极 大 的 速度 提升 。 类 似 NumPy 这 样 的 扩展 模块 对 于 
加 速 涉及 数组 数据 的 特定 计算 也 是 非常 高 效 的 。 最 
后 但 同样 重要 的 是 ， 还 可 以 尝试 其 他 的 解释 器 实 
现 ， 比 如 说 使 用 了 JIT 编 译 优 化 技术 的 PyPy《〈 尽 管 
在 写作 本 书 时 PyPy 还 没有 支持 Python 3) 。 


同样 值得 指出 的 是 ， 使 用 多 线程 技术 并 不 只 是 
为 了 获得 性 能 的 提升 。 一 个 CPU 密集 型 的 程序 可 能 
会 用 多 线程 来 管理 图 形 用 户 界 面 、 网 络 连接 或 者 其 
他 类 型 的 服务 。 在 这 种 情况 下 GIL 实 际 上 会 市 来 更 
多 的 问题 。 因 为 如 果 某 部 分 代码 持 有 GIL 锁 的 时 间 
过 长 ， 那 就 会 导致 其 他 非 CPU 密 集 型 的 线程 都 阻塞 
住 ， 这 实在 令 人 讨厌 。 实 际 上 ， 一 个 写 的 很 糟糕 的 
C 语 言 扩 展 模块 会 让 这 个 问题 变 得 更 加 严重 ， 尽 管 
代码 中 用 C 实 现 的 部 分 会 比 之 前 要 运行 得 更 快 I 。 


























说 了 这 么 多 ， 要 规避 GIL 的 限制 主要 有 两 种 常 
用 的 策略 。 第 一 ， 如 果 完 全 使 用 Python 来 编程 ， 可 
以 使 用 multiprocessing 模 块 来 创建 进程 池 ， 把 它 当 
E 例如 ， 假 设 线程 代码 是 这 样 


# Performs a large calculation (CPU bound) 


def 
some_work(args): 
return 
result 
# A thread that calls the above function 


def 


some_thread(): 
while 


r = some_work(args) 





下 面 的 示例 告诉 我 们 如 何 将 代码 修改 为 使 用 进 
程 池 的 方 却 : 





# Processing pool (see below for initiazation) 


pool = None 
# Performs a large calculation (CPU bound) 
def 
some_work(args): 
return 
result 
# A thread that calls the above function 


def 


some_thread(): 
while 


True: 


r = pool.apply(some_work, (args)) 


# Initiaze the pool 


if 


_hname == ' main__': 
import multiprocessing 


pool = multiprocessing. Pool( ) 





这 个 使 用 进程 池 的 例子 通过 一 个 巧妙 的 办 法 如 
开 了 GIL 的 限制 。 每 当 有 线程 要 执行 CPU 密集 型 的 
任务 时 ， 它 就 把 任务 所 区 到 池 中 ， 然 后 进程 池 将 任 
务 转交 给 运行 在 另 一 个 进程 中 的 Python 解释 硕 。 当 





线程 等 竺 结果 的 时 候 束 会 释放 GIL。 此 外 ， 由 于 计 
算是 在 男 一 个 单独 的 解释 器 中 进行 的 ， 这 就 不 再 受 
到 GIL 的 限制 了 。 在 多 核 系统 上 ， 将 会 发 现 采 用 这 
种 技术 能 轻易 地 利用 到 所 有 的 CPU 核心 。 


第 二 种 方式 是 把 重点 放 在 C 语 言 扩 展 编程 上 。 
主要 思想 就 是 将 计算 密集 型 的 任务 转移 到 Ci 语言 
中 ， 使 其 独立 于 Python， 在 C 代 码 中 释放 GIL。 这 是 
通过 在 C 代 码 中 插入 特殊 的 宏 来 实现 的 : 


























#include "Python.h" 


PyObject *pyfunc(PyObject *self, PyObject *args) { 


Py BEGIN _ALLOW_THREADS 


// Threaded C code 


Py_END_ALLOW_THREADS 


} 





如 果 使 用 其 他 的 工具 来 访问 C 代 码 ， 比 如 ctypes 
库 或 者 Cython， 那 么 可 能 不 需要 做 任何 处 理 。 比 方 
说 ，ctypes 默 认 会 在 调用 C 代 码 时 自动 释放 GIL。 


12.9.3 ”讨论 


有 许多 程序 员 每 当面 对 多 线程 程序 性 能 方面 的 
问题 时 ， 总 是 抱 优 GIL 是 所 有 问题 的 根源 。 但 是 ， 
这 么 做 只 是 一 种 短视 和 幼稚 的 行为 。 举 个 现实 中 的 
例子 吧 ， 在 多 线程 网 络 程序 中 出 现 神秘 的 “ 僵 死 ? 现 
象 很 可 能 是 由 于 和 GIL 风 马 牛 不 相 及 的 原因 所 造成 
的 《例如 ，DNS 查 询 失 败 ) 。 底 线 就 是 你 需要 认真 
研究 自己 的 代码 ， 判 断 GIL 是 否 才 是 问题 的 原因 。 
再 次 申明 ，CPU 密 集 型 的 处 理 才 需要 考虑 GIL，LIO 
密集 型 的 处 理 则 不 必 。 


如 果 打 算 使 用 进程 地 来 规避 GIL， 这 需要 涉及 
同 力 一 个 Python 解 释 右 之 间 进 行 数据 序列 化 和 通信 











的 处 理 。 为 了 让 这 种 方法 次 效 ， 竺 执行 的 操作 需要 
包含 在 以 def 语 句 定 义 的 Python 函数 中 《〈 即 ， 在 这 里 
lambda、 闭 包 、 可 调用 实例 都 是 不 可 以 的 ) ， 而 且 
也 数 参 数 和 返回 值 必 须 兼 容 于 pickle 编 码 。 此 外 ， 
要 完成 的 工作 规模 必须 足够 大 ， 这 样 可 以 弥补 额外 
产生 的 通信 开销 。 


将 多 线程 和 进程 池 混 在 一 起 使 用 绝对 是 个 让 人 
头痛 的 好 办 法 。 如 采 打 算 将 这 些 功 能 结合 在 一 起 使 
用 ， 通 第 最 好 在 创建 任何 线程 之 前 将 进程 池 作 为 单 
例 Csingleton) 在 程序 局 动 的 时 候 创 建 。 之 后 ， 线 
程 就 可 以 使 用 相同 的 进程 池 来 处 理 所 有 那些 计算 密 
集 型 的 工作 。 


对 于 C 语 言 扩展 模块 ， 最 午 要 的 功能 束 是 你 持 
与 Python 解释 左 进 程 的 隅 离 。 也 束 是 说 ， 如 果 打 算 
将 任务 从 Python 中 转移 到 C 来 处 理 ， 需 要 确保 C 代 三 
可 以 独立 于 Python 执行 。 这 意味 看 不 使 用 Python 的 
数据 结构 ， 也 不 调用 Python 的 C 语 言 API。 另 一 个 需 
要 考虑 的 就 是 要 确保 编写 C 语 言 扩展 模块 能 够 完成 
足够 多 的 任务 ， 这 样 才 值得 这 么 做 。 也 束 是 说 ， 这 
个 扩展 模块 最 好 可 以 执行 几 百 万 次 的 计算 ， 而 不 仪 
仅 只 是 完成 几 个 小 规模 的 计算 。 


不 用 说 ， 这 些 规避 GIL 限 制 的 解决 方案 并 非 对 
所 有 问题 都 适用 。 例 如 ， 茶 些 特定 类 型 的 应 用 如 果 

















分 解 到 多 个 进程 中 处 理 ， 或 者 是 将 部 分 代码 用 C 来 
实现 ， 效 果 都 不 会 很 好 。 对 于 这 些 类 型 的 应 用 ， 需 
要 找到 自己 的 解决 方案 (例如 ， 多 个 进程 访问 共 吝 
的 内 存 区 域 、 让 多 个 解释 器 运行 在 同一 个 进程 中 ， 
等 等 ) 。 作 为 备 选 方案 ， 我 们 还 可 以 选择 其 他 的 解 
释 右 实现 ， 比 如 PyPy。 


有 关 在 C 语 言 扩 展 中 释放 GIL 的 附加 内 容 ， 可 
参见 15.7 闻 和 15.107。 











12.10 ”定义 一 个 Actor 任 务 


12.10.1 问题 


我 们 想 要 定义 行为 上 类 似 于 actor 的 任务 ， 即 采 
用 所 谓 的 actor 模 式 来 编程 。 


12.10.2 解决 方案 


actor 模 式 是 最 古老 也 是 最 简单 的 用 来 解决 并 发 
和 分 布 式 计算 问题 的 方法 之 一 。 实 际 上 ，actor 模 式 
所 暗含 的 简单 性 正 是 它 的 吸引 力 所 在 。 总 的 来 说 ， 
actor 束 是 一 个 并 友 执 行 的 任务 ， 它 只 是 简单 地 对 发 
送 给 它 的 消息 进行 处 理 。 作 为 对 这 些 消息 的 啊 应 ， 
actor 会 决定 是 人 否 要 对 其 他 的 actor 发 送 进一步 的 消 
妃 。actor 任 务 之 间 的 通信 是 单 问 且 异 步 的 。 因 此 ， 
消息 的 发 送 者 并 不 知道 消息 何 时 才 会 实际 传递 ， 当 
消息 已 经 处 理 完毕 时 也 不 会 接收 到 啊 应 或 者 确认 。 


把 线程 和 队列 结合 起 来 使 用 很 容易 定义 出 
actor。 示 例如 下 : 


from queue import 


























Queue 
from threading import 


Thread, Event 


# Sentinel used for shutdown 


class ActorExit 


(Exception 


pass 


class Actor 


def 
__ init__(self): 
self. _mailbox = Queue() 


def 


send(self, msg): 


mre 


Send a message to the actor 


self. mailbox.put(msg) 


def 


recv(self): 


mre 


Receive an incoming message 


msg = self._mailbox.get() 
if 


msg is 


ActorExit: 
raise 


ActorExit() 
return 


msg 


def 


close(self): 


mre 


Close the actor, thus shutting it down 


self.send(ActorExit ) 


def 


start(self): 


mre 


Start concurrent execution 


self. terminated = Event() 

t = Thread(target=self. bootstrap) 
t.daemon = True 

t.start() 


def 


_bootstrap(self): 
try 


self.run() 
except 


ActorExit: 


pass 


finally 


self. _terminated.set() 


def 


join(self): 


self. _terminated.wait() 


def 


run(self): 


mre 


Run method to be implemented by the user 


while 
True: 
msg = self.recv() 


# Sample ActorTask 


class PrintActor 


(Actor ) : 
def 


run(self): 
while 


True: 
msg = self.recv() 
print 


('Got:', msg) 


# Sample use 


p = PrintActor() 
p.start() 
p.send('Hello' ) 
p.send('World' ) 
p.close() 
p.join() 





在 这 个 示例 中 ， 我 们 使 用 actor 实 例 的 sendO) 方 
法 来 发 送 消息 。 在 确 层 ， 这 会 将 消息 放 入 到 队列 





上 ， 内 部 运行 的 线程 会 从 队列 中 取出 收 到 的 消息 处 
理 。close() 方 法 通过 在 队列 中 放置 一 个 特殊 的 终止 
值 (ActorExit) 来 天 闭 actor。 用 户 可 以 通过 继承 
Actor 类 来 定义 新 的 actor， 并 重新 定义 run0) 方 法 来 实 
现 目 定 义 的 处 理 。 用 户 目 定义 的 代码 可 通过 
ActorExit 异 常 来 捕获 终止 请 求 ， 如 果 合 适 的话 可 以 
处 理 这 个 异常 《ActorExit 异 常 是 在 recv() 方 法 中 搜 

















出 并 传播 的 ) 。 


如 果 将 并 发 和 异步 消息 传递 的 需求 去 掉 ， 那 么 
完全 可 以 用 生成 器 来 定义 一 个 最 简化 的 actor 对 象 。 
示例 如 下 : 





def 


print_actor(): 
while 


True: 
try 


msg = yield 


# Get a message 


print 


('Got:', msg) 
except GeneratorExit 


print 


('Actor terminating' ) 
# Sample use 


p = print_actor() 
next(p) # Advance to the yield (ready to receive) 


p.send('Hello' ) 
p.send('World' ) 
p.close() 





12.10.33 ”讨论 





actor 模 式 之 所 以 吸引 人 ， 部 分 原因 是 由 于 它 的 
简单 性 。 在 实践 中 只 有 一 个 核心 的 操作 ， 那 就 是 
send()。 此 外 ， 在 基于 actor 模 式 的 系统 中 ,，“ 消 
县 ”的 概念 可 以 扩展 到 许多 不 同 的 方向 。 比 方 说 ， 
可 以 以 元 组 的 形式 传递 融 标 签 的 消息 ， 让 actor 执 行 
不 同 的 操作 : 











class TaggedActor 


(Actor): 
def 


run(self): 
while 


True: 
tag, *payload = self.recv() 
getattr(self, 'do_'+tag)(*payload) 


# Methods correponding to different message tags 


def 


do_A(self, x): 
print 


('Running A', x) 


def 


do_B(self, x, y): 
print 


('Running B', x, y) 


# Example 


a = TaggedActor() 


a.start() 
a.send(('A', 1)) # Invokes do_A(1) 
a.send(('B', 2, 3)) # Invokes do_B(2, 3) 





再 看 另 一 个 例子 。 这 里 有 一 个 actor 的 变种 ， 人 多 
许 在 工作 者 线程 中 执行 任意 的 函数 ， 并 通过 特殊 的 





Result 对 象 将 结果 回 传 : 





from threading import 


Event 
class Result 


def 


__ init__(self): 
self._evt = Event() 
self._result = None 
def 
set_result(self, value): 
self._result = value 
self._evt.set() 
def 
result(self): 
self._evt.wait() 
return 
self._result 
class Worker 


(Actor): 
def 


submit(self, func, *args, **kwargs): 


r = Result() 
self.send((func, args, kwargs, r)) 
return 


def 


run(self): 
while 


True: 
func, args, kwargs, r = self.recv() 
r.set_result(func(*args, **kwargs) ) 


# Example use 


worker = Worker() 
worker.start() 

r = worker.submit(pow, 2, 3) 
print 


(r.result()) 








最 后 但 同样 重要 的 是 ， 给 任务 "发送 ” 一 条 消息 


这 个 概念 是 可 以 扩展 到 涉及 多 进程 甚至 是 大 型 的 分 
布 式 系统 中 的 。 例 如 ， 可 以 把 actor 对 象 的 send() 方 
法 实现 为 在 socket 连 接 上 传输 数据 ， 或 者 通过 有 某 种 
消息 传递 的 基础 架构 (比如 AMQP、ZMQ 等 ) 来 完 
成 传递 。 


12.11 SLOW A HAT aE Se 
ze 


12.11.1 问题 


我 们 要 解决 一 个 基于 多 线程 间 通 信 的 问题 ， 和 希 
EB SEIN ACAD aI VT Wilh VE A ZK o 


12.11.2 ”解决 方案 


要 实现 及 布 者 /订阅 者 消息 模式 ， 一 般 来 说 需 
要 引入 一 个 单独 的 “交换 ?或 者 “网 天 ”这 样 的 对 象 ， 
作为 所 有 消息 的 中 介 。 也 就 是 说 ， 不 是 直接 将 消 县 
\—“MEB BRIE TFI— MES» MERKARI 
中 介 ， 由 中 介 将 消 妃 转 肥 给 一 个 或 多 个 相关 联 的 任 
务 。 下 面 给 出 了 一 个 非常 简单 的 消 妃 交换 的 实现 ; 





























from collections import 


defaultdict 


class Exchange 


__init__(self): 
self. subscribers = set() 


def 
attach(self, task): 
self. _subscribers.add(task) 
def 
detach(self, task): 
self. subscribers. remove(task) 
def 


send(self, msg): 
for 


subscriber in 
self. subscribers: 


subscriber .send(msg) 


# Dictionary of all created exchanges 


exchanges = defaultdict(Exchange) 


# Return the Exchange instance associated with a given name 


def 


get_exchange(name): 
return 


_exchanges[name | 








交换 中 介 其 实 束 是 一 个 对 象 ， 它 保存 了 活跃 的 
订阅 者 集合 ， 并 提供 关联 、 取 消 关 联 以 及 发 送 消 忆 
的 方法 。 每 个 交换 中 介 都 由 一 个 名 称 来 标识 ， 
get_exchange() 水 数 简 单 地 返回 同 给 定 的 名 称 相 关联 
的 那个 Exchange 对 象 。 


下 面 是 一 个 简单 的 例子 ， 展 示 了 如 何 使 用 交换 





# Example of a task. Any object with a send() method 


class Task 


def 
send(self, msg): 
task_a = Task() 


task_b = Task() 


# Example of getting an exchange 


exc = get_exchange('name' ) 


# Examples of subscribing tasks to it 


exc.attach(task_a) 
exc.attach(task_b) 


# Example of sending messages 


exc.send('msg1' ) 
exc.send('msg2' ) 


# Example of unsubscribing 


exc.detach(task_a) 
exc.detach(task_b) 








尽管 关于 这 个 主题 还 有 许多 不 同 的 变种 ， 但 总 
体 轧 路 痢 是 一 样 的。 消息 会 先 传递 到 一 个 中 介 ， 再 
由 中 介 将 销 奶 传递 给 相关 联 的 订阅 者 。 





12.11.33 讨论 


任务 或 者 线程 之 间 互 相 发 送 消 息 《〈 通 种 以 队列 
来 实现 ) ， 这 个 概念 很 流行 也 很 容易 实现 。 但 是 ， 
如 果 使 用 订阅 者 /发 布 者 模型 来 取代 传统 的 做 法 ， 带 
来 的 好 处 第 第 被 人 们 忽视 。 


首先 ， 使 用 交换 中 介 可 以 简化 很 多 设 定 线程 通 
信 的 工作 。 与 其 通过 多 个 模块 将 线程 连接 在 一 起 ， 
现在 只 需要 关心 将 线程 连接 到 一 个 已 知 的 区 换 中 介 
上 就 行 了 。 从 某 种 意义 上 说 这 和 logging 库 的 工作 方 
式 很 相似 。 在 实践 中 ， 这 么 做 可 以 使 解 硝 程序 中 的 
多 个 任务 变 得 更 加 容易 。 


其 次 ， 交 换 中 介 具 有 将 消息 广播 友 送 给 多 个 订 
疯 者 的 能 力 ， 这 打开 了 新 通信 模式 的 大 门 。 比 如 
说 ， 我 们 可 以 实现 带 有 允 余 任务 、 广 播 或 者 而 出 
(fan-out) 的 系统 。 也 可 以 构建 调试 以 及 诊断 工 
具 ， 将 它们 作为 普通 的 订阅 者 关联 到 交换 中 介 上 。 
下 面 是 一 个 简单 的 诊断 类 ， 可 以 显示 发 送 的 消息 : 


























class DisplayMessages 


def 


__ init__(self): 
self.count = 0 
def 


send(self, msg): 
self.count += 1 
print 
('msg[{}]: {!r}'.format(self.count, msg) ) 


exc = get_exchange('name' ) 


d = DisplayMessages() 
exc.attach(d) 


最 后 但 同样 重要 的 是 ， 这 种 实现 方式 有 一 个 显 
著 的 方面 束 是 它 能 和 各 种 类 似 于 任务 的 对 象 一 起 工 
作 。 比 如 ， 消 恩 的 接收 者 可 以 是 actor (12.1075 F fh 
述 了 actor 任 务 ) 、 协 程 、 网 络 连 接 ， 甚 至 只 要 实现 
了 合适 的 Send0) 方 法 的 对 象 都 可 以 。 


关于 交换 中 介 ， 一 个 可 能 存在 的 问题 束 是 如 何 
以 适当 的 方式 对 订阅 者 进行 关联 和 取消 关联 处 理 。 
为 了 能 正确 审理 资源 ， 每 个 已 经 关联 上 的 订阅 者 最 
终 痢 必须 取消 关联 。 这 瓯 导致 出 现 类 似 于 下 面 示 例 
的 编程 模型 : 











exc = get_exchange('name' ) 
exc.attach(some_task) 
try 


finally 


exc.detach(some_task) 





从 某 种 意义 上 说 ， 这 和 使 用 文件 、 锁 以 及 类 似 
的 资源 对 象 很 相似 。 经 验 告 诉 我 们 ， 程 序 员 名 各 会 
瓦 记 最 后 的 detachO0。 为 了 简化 这 个 步骤 ， 或 许 会考 
虑 使 用 上 下 文 管理 协议 。 例 如 ， 为 交换 中 介 这 加 一 
个 subscribe() 方 法 : 





from contextlib import 


contextmanager 
from collections import 
defaultdict 


class Exchange 


def 
__ init__(self): 
self. subscribers = set() 
def 
attach(self, task): 
self. _subscribers.add(task) 
def 
detach(self, task): 
self. subscribers. remove(task) 


@contextmanager 
def 


subscribe(self, *tasks): 
for 


task in 


tasks: 
self.attach(task) 
try 


yield 


finally 


for 
task in 
tasks: 
self.detach(task) 


def 


send(self, msg): 
for 


subscriber in 


self. subscribers: 
subscriber .send(msg) 


# Dictionary of all created exchanges 


_exchanges = defaultdict(Exchange) 
# Return the Exchange instance associated with a given name 
def 


get_exchange(name): 
return 


_exchanges[name | 


# Example of using the subscribe() method 


exc = get_exchange('name' ) 
with 


exc.subscribe(task_a, task_b): 
exc.send('msg1' ) 


exc.send('msg2' ) 


# task_a and task_b detached here 








最 后 应 该 要 提 到 的 是 ， 对 于 交换 中 介 这 个 思想 





有 许多 种 可 能 的 扩展 。 例 如 ， 交 换 中 介 可 以 


位 





实现 一 整个 消 恩 通道 的 集合 ， 或 者 对 交换 中 介 的 名 
称 施加 模式 匹配 的 规则 。 交 换 中 介 也 可 以 扩展 到 分 
布 式 计算 的 应 用 中 去 《〈 例 如 ， 将 消 轧 在 不 同 机 器 上 
的 任务 之 间 进 行路 由 ) 。 





12.12 ”使 用 生成 器 作为 线程 的 蔡 代 
JR 
12.12.1 问题 

我 们 想 用 生成 器 〈 协 程 ) 作为 系统 线程 的 替代 


方案 来 实现 并 发 。 协 程 有 时 也 称 为 用 户 级 线程 或 绿 
色 线 程 。 





12.12.2 解决 方案 


BEA FRAG a RSE CLAIR ACA, H2 m 
BE XY AE AMG a PRI BAT yield tes EREA PT TA o 
特别 是 关于 yield 的 基本 行为 ， 即 ， 使 得 生成 器 暂 俘 
执行 。 由 于 可 以 暂停 执行 ， 因 此 可 以 编写 一 个 调度 
锅 将 生成 锅 函 数 当做 一 种 “任务 ?来 对 符 ， 并 通过 使 
用 东 种 形式 的 任务 切换 来 交 丛 执行 这 些 任务 。 


为 了 说 明 这 个 思想 ， 考 虑 下 面 两 个 生成 器 函 
Dl: 


# Two simple generator functions 





def 


countdown(n): 
while 


print 


('T-minus', n) 
yield 


n -= 1 
print 


('Blastoff!') 


def 


countup(n): 
x = 0 
while 


print 


('Counting up', x) 
yield 


x += 1 











KEE RR BUA HEA OKRA AAT, ALA Ean 
用 了 单独 的 yield 语 句 。 但 是 请 考虑 下 面 的 代码 ， 我 
们 给 出 了 一 个 简单 的 任务 调度 右 实 现 : 








from collections import 


deque 
class TaskScheduler 
def 
__ init__(self): 
self. _task_queue = deque() 


def 


new_task(self, task): 


Admit a newly started task to the scheduler 


self. _task_queue.append(task) 


def 


run(self): 


Run until there are no more tasks 


while 


self._task_queue: 
task = self._task_queue.popleft() 
try 


# Run until the next yield statement 


next(task) 
self. _task_queue.append(task) 
except StopIteration 


# Generator is no longer executing 


pass 


# Example use 


sched = TaskScheduler() 


sched.new_task(countdown(10) ) 
sched.new_task(countdown(5) ) 
sched.new_task(countup(15) ) 
sched. run() 





在 这 份 代 人 码 中 ，TaskScheduler 类 以 循环 的 方式 
运行 了 一 系列 的 生成 费 函 数 每 个 都 运行 到 yield 
mA Mae. Pld, ERR HF: 


T-minus 5 
Counting up 0 





T-minus 9 
T-minus 4 
Counting up 1 
T-minus 8 


T-minus 3 
Counting up 2 
T-minus 7 
T-minus 2 





此 时 如 果 愿 意 的 话 ， 已 经 基本 上 实现 了 一 个 微 
型 “操作 系统 ”的 核心 。 生 成 器 函数 就 是 任务 ， 而 
yield 语 句 束 是 通知 任务 需要 暂停 挂 起 的 信号 。 调 度 
名 只 是 简单 地 轮流 执行 所 有 的 任务 ， 和 直到 没有 一 个 
任务 还 能 执行 为 止 。 


在 实践 中 ， 我 们 很 可 能 不 会 用 生成 右 来 实现 像 
示例 这 么 简单 的 并 发 处 理 。 相 反 ， 当 实现 actor 或 者 








网 络 服务 狠 时 ， 可 能 会 用 生成 磺 来 取代 线程 。 


下 面 的 代码 用 生成 妖 来 实现 actor， 完 全 没有 用 
到 线程 : 





from collections import 


deque 


class ActorScheduler 
def 
__ init__(self): 
self._actors = { } # Mapping of names to actors 
self. _msg_queue = deque() # Message queue 


def 


new_actor(self, name, actor): 
mre 


Admit a newly started actor to the scheduler and give it 


self. msg_queue.append((actor, None)) 
self._actors[name] = actor 


def 


send(self, name, msg): 


Send a message to a named actor 


actor = self._actors.get(name) 
if 


actor: 
self. _msg_queue.append((actor,msg) ) 


def 


run(self): 


mre 


Run as long as there are pending messages. 


while 


self ._msg_queue: 
actor, msg = self._msg_queue.popleft() 
try 


actor.send(msg) 
except StopIteration 


pass 


# Example use 


if 


—_name__ == ' main _': 
def 


printer(): 
while 


True: 
msg = yield 


print 


('Got:', msg) 


def 


counter(Sched ) : 
while 


True: 
# Receive the current count 
n = yield 
if 
N 三 三 
break 


# Send to the printer task 


sched.send('printer', n) 
# Send the next count to the counter task (recursive 


sched.send('counter', n-1) 


sched = ActorScheduler() 
# Create the initial actors 


sched.new_actor('printer', printer()) 
sched.new_actor('counter', counter(sched) ) 


# Send an initial message to the counter to initiate 


sched.send('counter', 10000) 
sched. run() 





这 段 代码 的 执行 流程 可 能 需要 研究 一 番 ， 但 是 





天 键 点 束 在 于 挂 起 的 消 忆 组 成 的 队列 上 。 基 本 上 ， 
只 要 有 消 奶 需要 传递 ， 调 度 右 束 会 运行 。 这 里 有 一 
个 值得 注意 的 特性 ，counter 生 成 器 发 送 消 息 给 自己 
并 进入 一 个 递归 循环 ， 但 却 并 不 会 党 到 Python 的 递 
JRR 。 


下 面 有 一 个 高 级 的 示例 ， 展 示 了 如 何 使 用 生成 
右 来 实现 一 个 并 友 型 的 网 络 应 用 : 








from collections import 


deque 
from select import 


select 


# This class represents a generic yield event in the scheduler 


class YieldEvent 


handle_yield(self, sched, task): 
pass 


def 


handle_resume(self, sched, task): 


pass 


# Task Scheduler 


class Scheduler 


def 


__init__(self): 


self. _numtasks = 0 


self. ready = deque() 


self. _read_waiting = {} 


self._write_waiting = {} 


# Total num of tasks 


# Tasks ready to run 


# Tasks waiting to read 


# Tasks waiting to write 


# Poll for I/O events and restart waiting tasks 


def 


iopoll(self): 
rset,wset,eset = select(self._read_waiting, 
self._write_waiting, []) 


for 
r in 
rset: 
evt, task = self._read_waiting.pop(r) 
evt.handle_resume(self, task) 
for 
w in 
wset: 
evt, task = self._write_waiting.pop(w) 
evt.handle_resume(self, task) 
def 


new(self, task): 


Add a newly started task to the scheduler 


self. _ready.append((task, None) ) 


self. _numtasks += 1 


def 


add_ready(self, task, msg=None): 


mre 


Append an already started task to the ready queue. 


msg 1s what to send into the task when it resumes. 


self. _ready.append((task, msg) ) 


# Add a task to the reading set 


def 


_read_wait(self, fileno, evt, task): 


self. _read_waiting[fileno] = (evt, task) 


# Add a task to the write set 


def 


_write_wait(self, fileno, evt, task): 


self._write_waiting[fileno] = (evt, task) 


def 


run(self): 


mre 


Run the task scheduler until there are no tasks 


while 


self. _numtasks: 
if not 


self._ready: 
self._iopoll() 
task, msg = self._ready.popleft() 
try 


# Run the coroutine to the next yield 


r = task.send(msg) 
if 


isinstance(r, YieldEvent): 
r.handle_yield(self, task) 
else 


raise RuntimeError 


('unrecognized yield event' ) 
except StopIteration 


self. numtasks -= 


# Example implementation of coroutine-based socket I/0 


class ReadSocket 


(YieldEvent ): 


def 


__init__(self, sock, 


def 


handle_yield(self, 
sched._read_wait(self.sock.fileno(), 


def 


self.sock 


self.nbytes 


handle_resume(self, 


data = self.sock.recv(self.nbytes) 
sched.add_ready(task, data) 


class WriteSocket 


(YieldEvent ): 


def 


sock 


nbytes): 


= nbytes 


sched, 


sched, 


task): 


task): 


__init__(self, sock, data): 


def 


self.sock 
self.data 


sock 
data 


self, 


task) 


handle_yield(self, sched, task): 
sched._write_wait(self.sock.fileno(), self, task) 
def 


handle_resume(self, sched, task): 
nsent = self.sock.send(self.data) 
sched.add_ready(task, nsent) 


class AcceptSocket 


(YieldEvent ): 
def 


__init__(self, sock): 
self.sock = sock 
def 


handle_yield(self, sched, task): 
sched._read_wait(self.sock.fileno(), self, task) 
def 


handle_resume(self, sched, task): 
r = self.sock.accept() 
sched.add_ready(task, r) 


# Wrapper around a socket object for use with yield 


class Socket 


(object): 
def 


__init__(self, sock): 
self. sock = sock 


def 


recv(self, maxbytes): 
return 


ReadSocket(self._sock, maxbytes) 


def 


send(self, data): 
return 


WriteSocket(self. sock, data) 
def 


accept(self): 
return 


AcceptSocket (self. sock) 
def 


__getattr__(self, name): 
return 
getattr(self._sock, name) 


if 


__name__ == '__main__': 
from socket import 


socket, AF_INET, SOCK_STREAM 
import time 


# Example of a function involving generators. This should 


# be called using line = yield from readline(sock ) 


def 
readline(sock): 
chars = [] 
while 
True: 
c = yield 


sock.recv(1) 


if not 
Ci 
break 
chars.append(c) 
if 
c == b'\n 


break 


return 


b''.join(chars) 


# Echo server using generators 


class EchoServer 


def 


__init__(self,addr,sched): 
self.sched = sched 
sched.new(self.server_loop(addr ) ) 


def 


server_loop(self,addr): 
s = Socket(socket (AF_INET, SOCK_STREAM) ) 
s.bind(addr ) 
s.listen(5) 
while 


True: 
c,a = yield 


s.accept() 
print 


('Got connection from ', a) 
self.sched.new(self.client_handler(Socket(c) )) 
def 


client_handler(self,client): 
while 


True: 
line = yield from readline 


(client 
) 
if not 
line: 
break 
line = b'GOT:' + line 
while 
line: 


nsent = yield 


client.send(line) 
line = line[nsent: ] 
client.close() 
print 


('Client closed' ) 
sched = Scheduler () 


EchoServer(('',16000), sched) 
sched. run() 








这 段 代码 显然 需要 花 上 一 段 时 间 来 仔细 研究 。 





然而 ， 这 基本 上 实现 了 一 个 小 型 的 操作 系统 。 有 一 
个 队列 (以 deque 实 现 ) 用 来 保存 处 于 就 绪 态 的 任 


务 ， 还 有 等 候 区 以 字典 实现 ) 用 来 剑 存 因为 等 符 
1/O 而 进入 休 虐 状态 的 任务 。 调 度 右 很 大 程度 上 就 
是 把 任务 在 就 绪 队 列 和 IO 等 待 区 之 间 来 回 移动 。 


12.12.3 ”讨论 


当 构 建 基于 生成 磺 的 并 发 框 殿 时， 使 用 一 般 形 
陈 的 yield 是 最 为 种 见 的 : 





def 


some_generator(): 


result = yield 


data 
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时 ”。 在 调度 器 内 部 ，yield 语 句 是 在 循环 中 按照 如 
下 方式 来 处 理 的 : 





f = some generator() 


# Initial result. Is None to start since nothing has been comput 


result = None 
while 


True: 
try 


data = f.send(result) 
result = ... do some calculation ... 
except StopIteration 


break 





这 里 关于 result 的 逻辑 似乎 有 点 令 人 费解 。 然 





而 ， 传 递 给 send0) 的 值 束 是 用 来 定义 当 yield 语 句 恢 
复 执行 后 返回 的 结果 。 因 此 ， 如 果 有 yield 语 句 要 返 
回 一 个 结果 作为 对 之 前 产生 的 数据 的 响应 ， 那 么 它 
束 会 在 下 一 个 send0O 操 作 中 人 返回。 如 果菜 个 生成 器 
函数 刚刚 启动 ， 发 送 None 给 它 会 让 它 前 进 到 第 一 个 
yield 语 句 的 位 置 。 


除了 可 以 发 送 值 以 外 ， 还 可 以 在 生成 器 上 执行 
close() 方 法 。 这 么 做 会 导致 在 yield 语 句 上 产生 一 个 
无 声 的 GeneratorExit 异 常 ， 这 会 终止 生成 器 的 执 
行 。 如 果 需 要 的 话 ， 和 生成 右 可 以 捕获 这 个 异常 并 执 
行 清理 操作 。 也 可 以 使 用 生成 器 的 throw0 方 法 在 
yield 语 句 上 产生 一 个 任意 的 异常 。 任 务 调度 器 可 能 


























会 使 用 这 个 寞 妾 给 运行 中 的 生成 费 传 达 错 误 信息 。 


最 后 那个 示例 中 用 到 的 yield from 语 句 是 用 来 实 

现 协 程 的 ， 它 可 以 作为 子 例 程 (subroutine) 或 过 程 

(procedure) 从 其 他 的 生成 器 中 调用 。 基 本 上 来 
说 ， 程 序 的 控制 流 是 以 透明 的 方式 转移 到 新 的 函数 
中 的 。 与 普通 的 生成 右 不 同 的 是 ， 采 用 yield from 调 
用 的 函数 ， 其 返回 值 可 以 成 为 yield from 语 句 的 结 
果 。 有 大 yield from 的 更 多 信息 可 以 在 PEP 
380 Chttp://www.python.org/dev/peps/pep-0380 ) 中 
找到 。 


最 后 ， 如 末了 要 用 生成 器 来 编程 ， 需 要 重点 强调 
天 于 生成 夯 的 一 些 主要 局 限 。 尤 其 是 ， 线 程 所 提供 
的 优势 在 生成 器 中 都 不 复 存 在 了 。 例 如 ， 如 采 执 行 
了 任何 CPU 密集 型 或 者 MO 阻塞 型 的 代码 ， 这 就 会 使 
整个 任务 调度 器 挂 起 ， 直 到 完成 全 部 操作 为 止 。 为 
了 规避 这 个 限制 ， 唯 一 的 选择 就 是 将 这 个 操作 转移 
到 一 个 可 以 独立 运行 的 线程 或 进程 中 执行 。 另 一 个 
限制 在 于 大 多 数 Python 库 的 实现 还 不 能 和 基于 生成 
人 答 的 线程 很 好 地 配合 在 一 起 使 用 。 如 条 选择 了 这 种 
方法 ， 会 及 现 需 要 为 许多 标准 库 函 数 编写 新 的 答 换 
版 本 。 有 关 协 程 的 基础 背景 和 本 节 中 所 采用 的 技 
术 ， 可 以 参阅 PEP 
342 Chttp://www.python.org/dev/peps/pep-0342 ) 以 
及 David Beazley 在 PyCon 2009 上 做 的 报告 “A 
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Concurrency” Chttp://www.dabeaz.com/coroutines 
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PEP 3156 Chttp://www.python.org/dev/peps/pep- 
3156 ) 中 也 采用 了 现代 化 的 方法 来 处 理 异步 1/O， 
其 中 也 涉及 了 协 程 。 在 实践 中 目 己 编写 一 个 底层 的 
协 程 调度 器 是 极 不 可 能 的 。 然 而 ， 有 许多 流行 的 
Python 程序 库 都 是 以 协 程 的 思想 为 基础 的 ， 这 包括 
sevent (http:/www.gevent.org ) ~ 
sreenlet Chttp://pypi.python.org/pypi/greenlet ) 、 
Stackless Python Chttp://www.stackless.com ) 以 及 
其 他 类 似 的 项 目 。 





12.13” 轮 询 多 个 线程 队列 
12.13.1 问题 
我 们 有 一 组 线程 队列 ， 想 轮 询 这 些 队 列 来 获取 


数据 。 很 大 程度 上 这 和 轮 询 一 组 网 络 连 接 来 获取 数 
据 类 似 。 





12.13.2 解决 方案 


对 于 轮 询 问题 ， 我 们 常用 的 解决 方案 中 涉及 一 
个 鲜 为 人 知 的 技巧 ， 即 利用 隐 洗 的 环 回 
(loopback) 网 络 连接 。 基 本 上 来 说 思路 是 这 样 
的 : 针对 每 个 想 要 轮 询 的 队列 《或 任何 对 象 ) ， 创 
建 一 对 互联 的 socket。 然 后 对 其 中 一 个 socket 执 行 写 
操作 ， 以 此 表示 数据 存在 。 男 一 个 socket 束 传递 给 
select0) 或 者 类 似 的 函数 来 轮 询 数据 。 下 面 用 一 些 简 
单 的 代码 来 说 明 这 个 思路 : 











import queue 


import socket 


import os 


class PollableQueue 


(queue. Queue): 
def 


__ init__(self): 
super().__init__() 
# Create a pair of connected sockets 


if 


os.name == 'posix': 
self. _putsocket, self. _getsocket = socket.socketpair 
else 


# Compatibility on non-POSIX systems 


server = socket.socket(socket.AF_INET, socket.SOCK_STREA 
server .bind(('127.0.0.1', 0)) 

server.listen(1) 

self. _putsocket = socket.socket(socket.AF_INET, socket.S 
self. _putsocket.connect(server.getsockname( ) ) 

self. _getsocket, _ = server.accept() 

server .close() 


def 


fileno(self): 
return 


self. getsocket .fileno() 
def 
put(self, item): 
super().put(item) 
self. _putsocket.send(b'x') 
def 
get(self): 


self._getsocket.recv(1) 
return 


super().get() 





在 这 份 代码 中 ， 我 们 定义 了 一 种 新 的 Queue 实 





例 ， 其 展 层 有 一 对 互联 的 socket。 在 UNIX 上 用 
socketpairO 函 数 来 建立 这 样 的 socket 对 是 非常 容易 
的 。 在 Windows 上 ， 我 们 不 得 不 使 用 示例 中 展示 的 
方法 来 伪装 socket 对 (这 看 起 来 有 些 怪 异 ， 首 先 创 
娃 一 个 服务 器 socket， 之 后 立刻 创建 客户 端 socket 并 
连接 到 服务 器 上 ) 。 之 后 对 get0 和 put0 方 法 做 了 些 
微 重 构 ， 在 这 些 socket 上 执行 了 少量 的 IO 操作 。 
put(0) 方 法 在 将 数据 放 入 队列 之 后 ， 对 其 中 一 个 
socket 写 入 了 一 个 字 节 的 数据 。 当 要 把 数据 从 队列 
中 取出 时 ，get0 方 法 就 从 另 一 个 socket 中 把 那个 单 
独 的 字 节 读 出 。 

















fileno0) 方 法 使 得 这 个 队列 可 以 用 类 似 selectO 这 
样 的 函数 来 轮 询 。 基 本 上 来 说 ，fleno0 方 法 只 是 暴 
露出 底层 由 getO 函 数 所 使 用 的 socket 的 文件 描述 


下 面 的 代码 示例 定义 了 一 个 消费 者 ， 用 来 在 多 
个 队列 上 监视 是 人 否 有 数据 到 来 : 








import select 


import threading 


def 


consumer (queues): 
mre 


Consumer that reads data on multiple queues simultaneously 


while 


True: 
Ccan_read, _, _ = select.select(queues,[],[]) 


item = r.get() 
print 


('Got:', item) 


qi = PollableQueue( ) 
q2 = PollableQueue() 
q3 = PollableQueue() 


t = threading.Thread(target=consumer, args=([q1,q2,q3],)) 
t.daemon = True 
t.start() 


# Feed data to the queues 


qi.put(1) 
q2.put(10) 
q3.put('hello' ) 
q2.put(15) 





如 果 试 看 运行 这 段 代码 ， 就 会 友 现 不 管 把 数据 
放 入 到 哪个 队列 中 ， 消 费 者 最 后 都 能 接收 到 所 有 的 





数据 。 


12.13.3 ”讨论 


要 对 非 文 件 类 型 的 对 象 比 如 队列 做 轮 询 操作 ， 
通常 都 是 看 起 来 简单 做 起 来 难 。 比 如 说 ， 如 果 不 采 
用 本 节 展 示 的 socket 技 术 ， 那 唯一 的 选择 就 是 裔 历 
所 有 的 队列 ， 分 别 判 断 每 个 队列 是 否 为 空 ， 而 且 还 
得 使 用 定时 器 〈 避 免 CPU 利 用 率 达 到 100% ) 。 就 像 
下 面 这 样 : 











import time 


def 


consumer (queues): 
while 


True: 
for 
q in 
queues: 
if not 
q.empty(): 


item = q.get() 
print 


('Got:', item 
# Sleep briefly to avoid 100% CPU 


time.sleep(0.01) 


这 对 于 某 些 特定 类 型 的 问题 或 许 是 行 得 通 的 ， 
但 是 这 么 做 很 罕 朱 ， 而 且 还 会 引入 奇怪 的 性 能 方面 
的 问题 。 例 如 ， 如 果 新 的 数据 添加 到 了 一 个 队列 
中 ， 那 么 至 少 有 10 吧 秒 的 时 间 才 能 检测 到 (对 于 一 
个 现代 的 处 理 器 来 说 ，10 军 秒 就 好 像 下 奉子 那么 漫 
is 


如 果 将 上 面 这 种 轮 询 方式 同 其 他 的 轮 询 对 象 

《比如 socket) 混在 一 起 使 用 ， 那 么 会 遇 到 更 多 问 

题 。 例 如 ， 如 果 想 同时 轮 询 socket 和 队列 ， 那 惑 不 
得 不 使 用 这 样 的 代码 DS 








import select 


def 


event_loop(sockets, queues): 
while 


True: 
# polling with a timeout 


can_read, _, _ = select.select(sockets, [], [], 0.01) 
for 


can_read: 
handle_read(r) 
for 
q in 
queues 
if not 
q.empty(): 
item = q.get() 
print 
('Got:', item) 
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决 的 。 只 要 一 个 单独 的 selectO 调 用 就 可 以 轮 询 这 两 
种 对 象 的 活跃 性 。 不 需要 使 用 超时 或 其 他 基于 时 间 





的 技巧 来 做 周期 性 的 检查 。 此 外 ， 如 果 数 据 添加 到 
了 丁 队列 中 ， 消费 者 几乎 能 在 同一 时 间 得 到 通知 。 尽 
党 底层 的 IO 会 带 来 一 点 小 小 的 负载 〈 即 ， 在 底层 
的 socket 对 上 写 入 和 读 出 一 字 节 的 数据 〉》， 但 由 于 
可 以 获得 更 好 的 响应 时 间 以 及 简化 了 代码 的 编写 ， 





各 都 是 很 值得 的 。 


因此 这 么 做 通 


12.14 在 UNIX 上 加 载 守护 进程 


12.14.1 问题 





我 们 想 编写 一 个 程序 ， 使 它 能 够 在 UNIX 或 类 
UNIX 的 操作 系统 上 以 守护 进程 的 方式 运行 。 


12.14.2 ”解决 方案 


创建 一 个 合适 的 守护 进程 需要 以 精确 的 顺序 调 
用 一 系列 的 系统 调用 ， 并 小 心 注意 其 中 的 细 市 。 下 
面 的 代码 定义 了 一 个 守护 进程 ， 附 之 还 有 当局 动 之 
后 可 以 轻易 让 它 停止 运行 的 能 














#!/usr/bin/env python3 


# daemon. py 


import os 


import sys 


import atexit 


import signal 


def 


daemonize(pidfile, *, stdin='/dev/null', 
stdout='/dev/null', 
stderr='/dev/null'): 
if 


os.path.exists(pidfile): 
raise RuntimeError 


('Already running' ) 


# First fork (detaches from parent) 


try 


if 


os.fork() > 0: 
raise SystemExit 


(0) # Parent exit 


except OSError as 


raise RuntimeError 


('fork #1 failed.') 


os.chdir('/') 
os.umask(0) 
os.setsid() 


# Second fork (relinquish session leadership) 


try 


if 


os.fork() > 0: 
raise SystemExit 


(0) 


except OSError as 


raise RuntimeError 


('fork #2 failed.') 


# Flush TAO buffers 


sys.stdout.flush() 
sys.stderr.flush() 


# Replace file descriptors for stdin, 


stdout, 


and stderr 


with 


open(stdin, 'rb', 0) as 


os.dup2(f.fileno(), sys.stdin.fileno()) 
with 


open(stdout, ‘ab', ©) as 


os.dup2(f.fileno(), sys.stdout.fileno()) 
with 


open(stderr, 'ab', 0) as 


os.dup2(f.fileno(), sys.stderr.fileno() ) 


# Write the PID file 


with 


open(pidfile, 'w') as 


print 


(os.getpid(), file=f ) 


# Arrange to have the PID file removed on exit/signal 


atexit.register(lambda 


: os.remove(pidfile) ) 


# Signal handler for termination (required) 


def 


sigterm_handler(signo, frame): 
raise SystemExit 
(1) 
Signal.signal(signal.SIGTERM, sigterm_handler ) 
def 


main(): 
import time 


sys.stdout.write('Daemon started with pid {}\n 


'.format(os.getpid())) 
while 


True: 
sys.stdout.write('Daemon Alive! {}\n 


' format (time.ctime())) 
time.sleep(10) 


if 


__name__ == '__main__': 
PIDFILE = '/tmp/daemon.pid' 


if 


len(sys.argv) != 2: 
print 


('Usage: {} [start|stop]'.format(sys.argv[0]), file=sys.stderr) 
raise SystemExit 


(1) 
if 


sys.argv[1] == 'start': 
try 


daemonize(PIDFILE, 
stdout='/tmp/daemon.log', 


stderr='/tmp/dameon.log' ) 
except RuntimeError as 


print 


(e, file=sys.stderr) 
raise SystemExit 
(1) 
main() 


elif 


sys.argv[1] == 'stop': 
if 


os.path.exists(PIDFILE): 
with 


open(PIDFILE) as 


os.kill(int(f.read()), signal.SIGTERM) 
else 


print 


('Not running', file=sys.stderr) 
raise SystemExit 


(1) 
else 
print 


('Unknown command {!r}'.format(sys.argv[1]), file=sys.stderr) 
raise SystemExit 


(1) 








要 加 载 这 个 守护 进程 ， 需 要 使 用 下 面 这 样 的 命 





bash % daemon.py start 

bash % cat /tmp/daemon.pid 
2882 

bash % tail -f /tmp/daemon.log 
Daemon started with pid 2882 


Daemon Alive! Fri Oct 12 13:45:37 2012 
Daemon Alive! Fri Oct 12 13:45:47 2012 





守护 进程 完全 在 后 人 台 运 行 ， 因 此 命令 会 立刻 返 

回 。 但 是 ， 可 以 像 上 面 的 命令 那样 检查 与 守护 进程 

相关 的 pid 文 件 和 日 志 。 要 停止 这 个 守护 进程 ， 可 以 
这 样 : 


bash % daemon.py stop 
bash % 


12.143 ”讨论 


本 节 定 义 的 daemonize(0) 函 数 可 以 在 程序 启动 的 
时 候 调 用 ， 这 样 可 以 使 程序 以 守护 进程 的 方式 运 
行 。daemonize0O 的 函数 签名 采用 的 是 keyword-only 
参数 ， eae pe eel E 让 意图 显得 更 加 清 
晰 。 这 迫使 用 户 必 须 这 样 来 调用 函数 : 





























daemonize('daemon.pid', 
stdin='/dev/null, 
stdout='/tmp/daemon.log', 


stderr='/tmp/daemon.log' ) 








MAESE TE ERRARE Ta HIS) ed A E: 


# Illegal. Must use keyword arguments 


daemonize('daemon.pid', 
'/dev/null', '/tmp/daemon.log','/tmp/daemon.1log' ) 











fe POR GUEST EE oe Be a ET S o 2 
本 思想 就 是 ， 首 先 ， 守 护 进 程 必 须 将 它 目 己 与 父 进 
程 分 离开 来 。 这 束 是 第 一 个 os.fork() 操 作 完成 后 并 
刻 终结 父 进程 的 目的 所 在 。 


当 子 进程 成 为 抓 儿 后 ， 束 调用 os.setsid0 创 建 一 
个 全 新 的 进程 会 话 ， 并 将 子 进程 设 为 会 话 的 头领 。 
这 么 做 也 将 子 进程 说 为 新 的 进程 组 的 头领 进程 ， 并 
硝 保 没有 任何 与 之 关联 的 控制 终端 。 如 果 这 上 听 起 来 
显得 很 神奇 ， 那 么 这 实际 上 是 为 了 以 合适 的 方式 将 
守护 进程 从 终端 中 分 离开 来 ， 并 确保 像 信 号 这 样 的 
东西 不 会 影响 到 守护 进程 的 运行 。 
































对 os.chdir() 和 os.umask(0) 的 调用 将 改变 当前 的 
工作 目录 ， 并 重 置 文件 模式 掩 码 。 改 变 工作 目录 通 
He TEER, RRA PRR MADE LET MRE 
的 那个 目录 之 下 了 。 


第 二 个 os.forkO 调 用 是 目前 为 止 最 为 神秘 的 操 
作 。 这 一 步 使 得 守护 进程 放弃 获取 一 个 新 的 控制 终 
靖 的 能 力 ， 并 为 自己 和 外 部 环境 提供 了 更 多 的 隔离 
(从 根本 上 上 说， 守护 进程 会 放弃 它 的 会 话 头 领 位 
置 ， 因 此 不 再 具有 打开 控制 终端 的 权限 了 ) 。 尽 管 
可 以 忽略 这 一 步 ， 但 一 般 来 说 还 是 推荐 这 么 做 的 。 


且 守 护 进程 已 经 以 合适 的 方式 完成 了 分 离 ， 
残 执行 后 续 的 步 又 来 重新 初始 化 标准 MO 访 ， 使 其 
指 回 由 用 户 指 定 的 文件 。 这 一 部 分 的 处 理 实际 上 也 
需要 用 到 一 些 技 巧 。 在 Python 解释 器 中 可 以 找到 多 
个 与 标准 IO 流 相 关联 的 文件 对 象 引用 《比如 
sys.stdout、Sys._ stdout_ 等 ) 。 只 关闭 sys.stdout 并 
为 其 重新 赋值 并 不 能 保证 可 以 正 第 工作 ， 因 为 没 法 
知道 这 么 做 是 否 可 以 修改 到 所 有 对 sys.stdout 的 引 
用 。 相 反 ， 我 们 打开 一 个 单独 的 文件 对 象 ， 并 通过 
os.dup20 调 用 来 取代 当前 由 sys.stdout 所 使 用 的 文件 
描述 符 。 当 这 一 切 发 生 的 时 候 ，sys.stdout 原 来 所 用 
的 文件 会 被 关闭 ， 并 用 新 的 文件 取代 它 的 位 置 。 必 
须要 强调 的 是 ， 任 何 已 经 作用 于 标准 IO 流 的 文件 
编码 或 文本 处 理 将 保持 原样 。 









































守护 进程 的 一 种 常见 做 法 就 是 将 它 的 进程 ID 写 
入 到 一 个 文件 中 ， 以 便 稍 后 给 其 他 的 程序 使 用 。 
daemonize0 函 数 最 后 的 部 分 正 是 在 执行 号 文件 的 操 
作 ， 但 同样 也 做 了 安排 ， 可 以 让 这 个 文件 在 程序 终 
止 时 被 删除 。 由 atexit,register0 注 册 的 函数 可 以 在 
Python 解 释 器 退出 时 得 到 执行 。 针 对 信号 SIGTERM 
所 定义 的 信号 处 理 例 程 同样 需要 以 优雅 得 体 的 方式 
退出 。 这 个 信号 处 理 例 程 只 是 发 出 SystemExit() 卉 
第 ， 除 此 之 外 什么 都 不 做 。 这 乍 看 起 来 是 没有 必要 
的 ， 但 如 果 没 有 这 个 信号 处 理 例 程 ， 终 止 信号 束 会 
杀 死 解释 堪 进 程 而 不 会 执行 注册 到 atexitregisterO 中 
的 清理 函数 。 杀 死守 护 进程 的 代码 示例 可 以 在 程序 
结尾 部 分 处 理 stop 命 令 的 地 方 找到 。 


更 多 关于 编写 守护 进程 的 信息 可 以 在 
W.Richard Stevens 和 Stephen A.Rago4 3% HAdvanced 
Programming in the UNIX Environment , 2nd 
Edition (Addison-Wesley, 2005) 中 找到 。 尽 管 此 
书 的 重点 是 用 C 语 言 来 编程 ， 但 所 有 的 内 容 都 很 容 
易 适 应 于 Python。 因 为 所 有 所 需 的 POSIX 函 数 都 可 
以 在 Python 标准 库 中 找到 。 


























[1] ”因为 无 法 保证 发 起 清除 事件 请 求 的 线程 和 青 
次 等 待 该 事件 的 线程 间 的 执行 顺序 。 详 首 注 





[2] 即 所 谓 的 恢 群 现象 。 一 一 详 者 注 


[3] “ 即 函 数 式 编程 中 的 map (JT) Mreduce Mk, 
fal) 。 一 一 译 者 注 





[4] ”要 想 理 解 这 一 段 内 容 ， 需 要 对 Python 解 释 器 的 
行为 有 一 些 了 解 。 对 于 1/O 密 集 型 的 线程 ， 每 当 阻 
塞 等 待 /O 操 作 时 解释 器 都 会 释放 GIL。 对 于 从 来 不 
执行 任何 W/O 操作 的 CPU 密 集 型 线程 ，Python 解 释 器 
会 在 执行 了 一 定数 量 的 字 节 人 后 释放 GIL， 以 便 其 
他 线程 得 到 执行 的 机 会 。 但 是 C 语 言 扩 展 模 块 不 
同 ， 调 用 C 函 数 时 GIL 会 被 锁定 ， 直 到 它 返 回 为 
止 。 由 于 CC 代码 的 执行 是 不 受 解释 器 控制 的 ， 这 一 
期 间 不 会 执行 任何 Python 字 节 码 ， 因 此 解释 器 就 没 
法 释放 GIL 了 。 如 果 编 写 C 语 言 扩展 时 不 小 心 ， 比 
方 说 调用 了 会 阻塞 的 C 函 数 、 执 行 耗 时 很 长 的 操作 
等 ， 那 么 必须 等 到 C 函 数 返 回 时 才 会 释放 GIL， 这 
时 其 他 的 线程 就 僵 死 了 。 这 就 是 为 什么 作者 说 如 果 
C 扩 展 模块 实现 的 很 糟糕 的 话 ， 会 让 问题 变 得 更 严 
重 。 一 一 译 者 注 


[5] ”这 种 问题 的 根源 束 在 于 没有 把 队列 和 socket 放 
在 同等 的 地 位 上 ， 参 见 本 节 开 头 对 问题 的 描述 。 
详 首 注 








第 13 章 ”实用 脚本 和 系统 寡 理 


有 很 多 人 把 Python 当做 shell 脚 本 的 替代 ， 用 来 
实现 系统 任务 的 自动 化 处 理 ， 比 如 操纵 文件 、 配 置 
系统 等 。 本 章 的 主要 目标 是 描述 编写 脚本 时 常会 遇 
到 的 一 些 任务 。 比 如 ， 解 析 命 令 行 选项 、 操 纵 文 件 
系统 中 的 文件 、 获 取 有 用 的 系统 配置 数据 等 。 本 书 
第 5 章 中 也 包含 了 一 些 与 文件 和 目录 相关 的 信息 。 





13.1 GHW. Ia AM 
件 来 作为 脚本 的 输入 、 


13.1.1 问题 


我 们 希望 自己 编写 的 脚本 能 够 接受 任意 Pe 
用 户 来 说 最 为 方便 的 输入 机 制 。 这 应 该 包括 从 命令 
中 产生 输出 给 脚本 、 把 文件 重 定 疝 到 脚本 ,或 者 只 
征 在 命令 行 中 传递 一 个 或 者 一 列 文件 名 给 脚本 。 


13.1.2 解决 方案 


Python 内 置 的 feinput 模 块 使 得 这 一 切 变 得 非 弟 
简单 。 如 采 有 一 个 类 似 下 面 这 样 的 脚本 : 











#!/usr/bin/env python3 


import fileinput 


with 


fileinput.input() as 


f_input: 
for 


line in 


f_input: 
print 


(line, end='') 











那么 已 经 可 以 让 脚本 按照 上 述 所 有 的 方式 来 接 
收 输入 了 。 如 果 将 这 个 脚本 保存 为 filein.py 并 使 其 
成 为 可 执行 的 ， 那 么 惑 能 够 完成 下 列 所 有 的 操作 并 
得 到 期 望 的 输出 : 


$ ls | ./filein.py # Prints a directory listing to s 


$ ./filein.py /etc/passwd # Reads /etc/passwd to stdout. 


$ ./filein.py < /etc/passwd # Reads /etc/passwd to stdout. 





13.1.3 ”讨论 


函数 fileinput.inputO 创 建 并 返回 一 个 FileInput 类 
的 实例 。 除 了 包含 有 一 些 方便 实用 的 帮助 函数 外 ， 
该 实例 还 可 以 当做 上 下 文 管理 器 来 用 。 因 此 ， 把 所 
有 这 些 结合 在 一 起 ， 如 果 我 们 编写 一 个 脚本 期 望 它 
能 立刻 从 多 个 文件 中 打印 输出 ， 我 们 可 以 在 输出 中 
ELE SOFA Sa, ERP I: 








>>> import fileinput 


>>> with 


fileinput.input('/etc/passwd') as 


>>> for 


print 


(f.filename(), f.lineno(), line, end='') 


/etc/passwd 1 ## 


/etc/passwd 2 # User Database 


/etc/passwd 3 # 


<other output omitted> 





JEE LE BSC ee AREH H a SES 
使 用 时 会 被 天 财 ， 此 外 我 们 这 里 还 利用 了 FileInput 
实例 的 帮助 函数 来 获取 一 些 额外 的 信息 。 


13.2 ”终止 程序 并 显示 错误 信息 
13.2.1 问题 


我 们 想 让 自己 的 程序 在 终止 时 加 标准 错误 输出 
打印 一 条 消息 并 返回 一 个 非 零 的 状态 三。 
13.2.2 ”解决 方案 

要 让 程序 以 这 种 方式 终止 ， 可 以 发 出 一 个 


SystemExit 寞 弟 ， 但 是 要 提供 错误 信息 作为 参数 。 
示例 如 下 : 


raise SystemExit('It failed!') 


这 会 导致 提供 的 信息 被 打印 到 sys.stderr 上 ， 且 
程序 退出 时 的 状态 人 码 为 1。 


13.2.3 ”讨论 
本 节 的 内 容 十 分 短小 ， 但 是 解决 了 编写 脚本 时 


的 一 个 第 见 问 题 。 即 ， 要 终止 一 个 程序 ， 以 前 可 能 
会 倾 回 于 编写 这 样 的 代码 : 


import sys 


sys.stderr.write('It failed!\n 


') 


raise SystemExit 


(1) 








现在 ， 不 需要 再 同 这 些 import 或 者 sys.stderr 捞 
和 在 一 起 了 ， 只 需要 给 SystemExitO 提 供 一 条 错误 信 
A Bp 可 o 


13.3 解析 命令 行 选 项 
13.3.1 问题 


我 们 想 编 号 一 个 程序 用 来 解析 在 命令 行 中 提供 
的 各 种 选项 (选项 保存 在 sys.argv 中 )。 


13.3.2 ”解决 方案 


可 以 用 argparse 模 块 来 解析 命令 行 选项 。 我 们 
用 一 个 简单 的 例子 来 帮助 说 明 这 里 的 核心 特性 : 





# search.py 


Hypothetical command-line tool for searching a collection of 


files for one or more text patterns. 


Import 


parser 


parser. 


parser 


parser. 


parser 


parser. 


args = 


argparse 


= argparse.ArgumentParser(description='Search some files' 


add_argument(dest='filenames',metavar='filename', nargs=' 


.add_argument('-p', '--pat',metavar='pattern', required=Tr 
dest='patterns', action='append', 
help='text pattern to search for') 

add_argument('-v', dest='verbose', action='store_true', 


help='verbose mode' ) 


.add_argument('-o', dest='outfile', action='store', 


help='output file') 

add_argument('--speed', dest='speed', action='store', 
choices={'slow', 'fast'}, default='slow', 
help='search speed' ) 


parser.parse_args() 


# Output the collected arguments 


print 


(args.filenames ) 


print 


(args.patterns) 


print 


(args.verbose) 


print 


(args.outfile) 


print 


(args.speed) 


IRN REP RE T aR OAT ANT KHE 
这 样 的 : 


bash % python3 search.py -h 
usage: search.py [-h] [-p pattern] [-v] [-o OUTFILE] [--speed {s 
[filename [filename ...]] 


Search some files 


positional arguments: 
filename 


optional arguments: 
-h, --help show this help message and exit 
-p pattern, --pat pattern 
text pattern to search for 
-V verbose mode 
-0 OUTFILE output file 
--speed {slow, fast} search speed 








接 下 来 的 交互 式 会 话 展 示 了 数据 在 程序 中 的 显 
示 方 式 ， 请 仔细 观察 printO 语 句 的 输出 。 


bash % python3 search.py foo.txt bar.txt 

usage: search.py [-h] -p pattern [-v] [-o OUTFILE] [--Speed {fas 
[filename [filename ...]] 

search.py: error: the following arguments are required: -p/--pat 


bash % python3 search.py -v -p spam --pat=eggs foo.txt bar.txt 
filenames = ['foo.txt', 'bar.txt'] 





patterns = ['spam', 'eggs'] 
verbose = True 
outfile = None 
speed = slow 


bash % python3 search.py -v -p spam --pat=eggs foo.txt bar.txt - 


filenames = ['foo.txt', ‘bar.txt'] 
patterns = ['spam', ‘eggs' ] 
verbose = True 

outfile = results 

speed = slow 


bash % python3 search.py -v -p spam --pat=eggs foo.txt bar.txt - 
--speed=fast 


filenames = ['foo.txt', '‘bar.txt'] 
patterns = ['spam', 'eggs'] 
verbose = True 

outfile = results 

speed = fast 








如 何 对 选项 做 进一步 的 处 理 则 取决 于 程序 员 目 
己 。 只 要 把 print() 丛 换 成 其 他 更 有 意义 的 函数 即 





Bl 
13.3.3 ”讨论 


argparse 模 块 是 标准 库 中 最 为 庞大 的 模块 之 
一 ， 有 着 非常 多 的 配置 选项 。 本 节 仪 展示 其 中 的 基 
本 子 集 ， 可 以 通过 使 用 这 些 子 集 来 入 门 并 进行 扩 
展 。 


要 解析 命令 行 选项 ， 首 先 需 要 创建 一 个 
ArgumentParser 实 例 ， 并 通过 使 用 add_argument() 方 





法 来 添加 想 要 文 持 的 选项 声明 。 在 每 个 
add_argumentO 调 用 中 ， 参 数 dest 指 定 了 用 来 保存 解 
析 结 果 的 属性 名 称 。 而 当 产 生 帮 助 信息 时 会 用 到 参 
数 metavar。 参 数 action 则 指定 了 与 参数 处 理 相 关 的 
行为 ， 通 利用 store 来 表示 存储 单个 值 ， 或 者 用 
append 来 表示 将 多 个 值 保存 到 一 个 列表 中 。 


下 面 的 参数 表示 将 所 有 额外 的 命令 行 参数 保存 
到 一 个 列表 中 。 在 示例 中 ， 这 条 语句 用 来 创建 一 个 
文件 名 列表 : 











parser.add _ argument(dest='filenames',metavar='filename', nargs=' 





接 下 来 的 参数 设 定 了 一 个 布尔 标记 ， 标 记 的 值 
取决 于 参数 是 否 有 提供 : 


parser.add_argument('-v', dest='verbose', action='store_true', 
help='verbose mode' ) 





下 面 的 参数 表示 接受 一 个 单独 的 值 并 将 其 保存 
HFIP: 


parser.add_argument('-o', dest='outfile', action='store', 
help='output file') 











下 面 语句 中 指定 的 参数 可 允许 命令 行 参 数 重复 
多 次 ， 并 将 所 有 的 参数 值 保 存在 列表 中 。required 
标记 意味 着 参数 必须 至 少 要 提供 一 次 。 使 用 -p 和 -- 
pat 表 示 这 两 种 选项 名 称 都 是 可 接受 的 。 





parser.add_argument('-p', '--pat',metavar='pattern', required=Tr 
dest='patterns', action='append', 
help='text pattern to search for') 





最 后 ， 下 面 语 句 中 指定 的 参数 可 接受 一 个 值 ， 
但 会 将 这 个 值 同 一 组 可 能 的 选择 做 对 比 。 
parser.add_argument('--speed', dest='speed', action='store', 


choices={'slow', 'fast'}, default='slow', 
help='search speed' ) 





一 旦 选项 已 经 给 出 ， 只 需要 简单 地 执行 
parser.parse(0) 方 法 。 这 么 做 会 处 理 sys.argv 的 值 ， 并 
返回 结果 实例 。 每 个 命令 行 参数 解析 出 的 结果 都 会 








保存 在 由 dest 参 数 所 指定 的 对 应 的 属性 中 。 


还 有 其 他 几 种 方法 可 用 来 解析 命令 行 选项 。 例 
如 ， 我 们 可 能 会 倾 回 于 上 自己 手动 处 理 sys.argv 或 者 
使 用 getopt 模 块 〈 念 照 类 似 的 C 库 打造 ) 。 但 是 ， 如 
果 采 用 这 种 方法 ， 那 就 会 导致 重复 编写 很 多 
argparse 已 经 提供 的 代码 。 也 许 会 遇 到 使 用 optparse 








库 来 解析 命令 行 选项 的 代码 。 尽 管 optparse 和 
argparse 很 相似 ， 但 后 者 更 加 现代 化 ， 在 新 项 目 中 
应 该 优先 选择 使 用 argparse。 


13.4 在 运行 时 提供 密码 输入 提示 
13.4.1 问题 


我 们 已 经 编写 好 了 一 个 脚本 ， 其 中 需要 用 户 输 
入 密码 。 但 是 由 于 脚本 是 用 来 做 交互 式 使 用 的 ， 我 
们 想 为 用 户 提 供 密 人 码 输入 提示 《此 时 用 户 输入 的 密 
ES 而 不 是 将 其 使 编码 到 脚本 














13.4.2 解决 方案 


在 这 种 情况 下 ，Python 的 getpass 模 块 正 是 你 所 
需要 的 。 它 可 以 让 我 们 非常 方便 地 为 用 户 提 供 和 密码 
输入 ， 而 不 会 将 输入 的 密码 显示 在 终 病 屏 帮 上 。 不 
例如 下 : 





import getpass 


user = getpass.getuser() 
passwd = getpass.getpass() 


if 


svc_login(user, passwd): # You must write svc_login() 


print 


('Yay!") 
else 


print 


('Boo!') 





TE EIA TRASH, PR Bsve_login) ÆR 20 A 
are aa 用 来 进一步 处 理 输 入 的 密码 。 显 








从， 有 具体 的 处 理 步 骤 是 特定 于 应 用 的 。 
13.4.3 ”讨论 


注意 ， 在 上 面 的 代码 中 ，getpass.getuser(O) 并 不 
会 提示 用 户 输入 用 户 名 。 相 反 ， 它 会 根据 用 户 的 
shell 环 境 使 用 当前 的 用 户 登 录 名 。 或 者 作为 最 后 的 
手段 ， 以 本 地 系统 的 密码 数据 库 (在 文 持 pwd 模 块 
的 平台 上 ) 为 文 撑 。 


如 果 为 了 更 加 可 靠 ， 想 显 式 给 用 户 提 供用 户 名 
输入 ， 那 么 可 以 使 用 内 置 的 pput 函 数 : 























user = input('Enter your username: ') 


同样 需要 记得 的 是 ， 在 有 些 系 统 上 可 能 不 文 持 
将 输入 给 getpass0) 方 法 的 密码 做 隐藏 处 理 。 在 这 种 
情况 下 ，Python 会 竭尽 所 能 的 友 出 预警 信息 〈 例 
如 ， 在 继续 处 理 前 管 告 你 密码 将 以 明文 形式 显 
a 

















13.5 ”获取 终端 大 小 
13.5.1 问题 


我 们 需要 获取 终端 的 大 小 ， 以 此 对 程序 的 得 出 
做 适当 的 格式 化 处 理 。 





13.5.2 ”解决 方案 
可 以 使 用 os.get_terminal_size() 了 水 数 来 办 到 |: 


>>> import os 


>>> SZ = os.get_terminal_size() 

>>> SZ 

os.terminal_size(columns=80, lines=24) 
>>> sz.columns 

80 

>>> sz.lines 

24 

>>> 





13.5.3 phir 
还 有 许多 其 他 的 方法 来 获取 终端 的 大 小 ， 从 读 





取 环 境 变量 到 执行 涉及 iocttO0 和 TTY 的 底层 系统 调 
用 都 可 以 。 坦 白地 说 ， 如 果 一 个 简单 的 调用 就 能 解 
决 问题 ， 为 什么 还 要 操心 那些 细节 呢 ? 


13.6 执行 外 部 命令 并 获取 输出 
13.6.1 问题 


我 们 想 执 行 一 个 外 部 命令 并 把 输出 保存 为 一 个 
Python 字符 串 。 


13.6.2 ”解决 方案 


可 以 使 用 函数 subprocess.check_outputO 来 完 
Mo AWG: 


import subprocess 


out_bytes = subprocess.check_output(['netstat', '-a']) 





这 么 做 会 运行 指定 的 命令 ， 并 将 输出 结果 以 字 
节 串 的 形式 返回 。 如 果 需 要 将 返回 的 结果 字 节 以 文 
本 的 形式 来 解读 ， 可 以 再 增加 一 个 解码 的 步骤 。 示 
例如 下 : 


out_text = out_bytes.decode('utf-8') 





Le 


如 果 执 行 的 命令 返回 了 一 个 非 零 的 退出 码 ， 那 
么 就 会 产生 一 个 异 第 。 下 面 的 示例 可 以 捕获 错误 并 
获取 创建 的 输出 以 及 退出 码 : 





out_bytes = subprocess.check_output(['cmd', 'arg1', 'arg2']) 
except 


subprocess.CalledProcessError as 


out_bytes = e.output # Output generated before error 


code = e.returncode # Return code 








默认 情况 下 ，check_outputO 只 会 返回 写 入 到 标 
准 输出 中 的 结果 。 如 果 和 希望 标准 输出 和 标准 错误 输 
出 都 能 获取 到 ， 那 么 可 以 使 用 参数 stderr: 








out_bytes = subprocess.check_output(['cmd', 'argi', 'arg2'], 


stderr=subprocess.STDOUT ) 


如 果 需 要 执行 一 个 带 有 超时 机 制 的 命令 ， 可 以 
使 用 参数 timeout: 


out_bytes = subprocess.check_output(['cmd', 'argi', 'arg2'], t 
except 


subprocess.TimeoutExpired as 


e: 





一 般 来 说 ， 命 令 的 执行 不 需要 依赖 底层 shell 的 
支持 (例如 sh、bash 等 ) 。 相 反 ， 我 们 提供 的 字符 
串 列 表 会 传递 给 确 层 的 系统 命令 ， 比 如 
0Ss.execve()。 如 条 布 望 命令 通过 shell 来 解释 执行 ， 
只 要 将 命令 以 简单 的 字符 串 形 式 提 供 并 给 定 参数 
shell=True 即 可 。 如 果 打 算 让 Python 执行 一 个 涉及 管 
道 、I1/O 重 定向 或 其 他 特性 的 复杂 shell 命 令 时 ， 这 么 
做 往往 是 很 有 用 的 。 例 如 : 














out_bytes = subprocess.check_output('grep python | wc > out', she 


请 注意 ， 在 shell 下 执行 命令 是 有 着 潜 在 的 安全 
威胁 的 ， 特 别 是 当 参 数 来 目 于 用 户 的 输入 时 更 是 如 
此 。 在 这 种 情况 下 ，shlex.quoteO 函 数 可 用 来 正确 引 
用 包 售 在 shell 命 令 中 的 参数 。 


13.6.3 ”讨论 


执行 一 个 外 部 命令 并 获取 输出 ， 最 简单 的 方法 
束 是 使 用 check_output(0) 函 数 了 。 但 是 ， 如 果 和 需要 同 
-个子 进程 执行 更 加 高 级 的 通信 ， 例 如 为 其 及 送 输 
入 ， 那 就 需要 采用 不 同 的 方法 了 了 。 基 于 此 ， 可 以 直 
接 使 用 subprocess.Popen 类 。 示 例如 下 : 














import subprocess 


# Some text to send 


text = pT 
hello world 
this is a test 
goodbye 


# Launch a command with pipes 


p = subprocess.Popen(['wc'], 
stdout = subprocess.PIPE, 
stdin = subprocess.PIPE) 


# Send the data and get the output 


stdout, stderr = p.communicate(text) 


# To interpret as text, decode 


out 
err 


stdout .decode('utf-8' ) 
stderr .decode('utf-8' ) 





如 有 果菜 个 外 部 命令 期 望 同 一 个 真正 的 
TTY CBN, Avni) 进行 交互 ， 那 么 Subprocess 
模块 不 适合 同 这 样 的 外 部 命令 进行 通信 。 例 如 ， 我 








们 不 能 用 它 来 实现 目 动 回 用 户 请 求 输入 密码 的 任务 

《比如 一 个 ssh 会 话 ) 。 对 于 这 种 需求 ， 需 要 使 用 第 
三 方 模块 来 完成 ， 比 如 那些 基于 流行 的 “expect” 族 
的 工具 (如 pexpect 或 类 似 的 工具 ) 。 


13.7 找 见 或 移动 文件 和 目录 
13.7.1 问题 


我 们 需要 找 贝 或 移动 文件 和 目录 ， 但 是 不 想 通 
过 调用 shell 命 令 来 完成 。 


13.7.2 ”解决 方案 


shutil 模 块 中 有 痢 可 移植 的 图 数 实 现 ， 可 用 来 找 
贝 文件 和 目录 ， 用 法 相当 直接 ， 示 例如 下 : 








import shutil 


# Copy src to dst. (cp src dst) 


shutil.copy(src, dst) 


# Copy files, but preserve metadata (cp -p src dst) 


shutil.copy2(src, dst) 


# Copy directory tree (cp -R src dst) 


shutil.copytree(src, dst) 


# Move src to dst (mv src dst) 


shutil.move(src, dst) 
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或 目录 的 名 称 。 如 同 注释 中 说 明 的 那样 ， 这 些 函 数 
的 底层 语义 是 在 答 试 模仿 类 似 的 UNIX 命 令 。 

默认 情况 下 ， 符 号 链接 也 适用 于 这 些 命 令 。 例 
如 ， 如 果 源 文件 是 一 个 符 写 链接 ， 那 么 目的 文件 将 
会 是 该 链接 所 指 回 的 文件 的 找 贝 。 如 果 只 想 撕 由 和 从 
写 链 接 本 里， 可 以 提供 关键 字 参 数 
follow_symlinks， 示 例如 下 : 


shutil.copy2(src, dst, follow_symlinks=False) 


如 果 想 在 拷贝 的 目录 中 保留 符号 链接 ， 可 以 这 
么 做 : 


shutil.copytree(src, dst, symlinks=True) 











copytree0 国 数 以 可 选 的 方式 允许 在 找 贝 的 过 程 
中 忽略 特定 的 文件 和 目录 。 为 了 做 到 这 点 ， 需 要 提 
fk—~Signorerhi 20, ZR% A ae A AZEN 
oe eee Feeney 。 不 例 
HF: 





def 


ignore_pyc_files(dirname, filenames): 
return 


[name in 


filenames if 


name.endswith('.pyc')] 


shutil.copytree(src, dst, ignore=ignore_pyc_files) 
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个 实用 函数 ignore_patterns0) 提 供给 我 们 使 用 了 。 示 
例如 下 : 


shutil.copytree(src, dst, ignore=shutil.ignore_patterns('*~','*. 





13.7.3 ”讨论 


大 部 分 情况 下 用 shutil 来 找 贝 文件 和 目录 都 是 非 
种 直接 的 。 但 是 ， 需 要 注意 的 是 ， 当 考虑 到 文件 的 
元 数据 时 ， 类 似 copy20 这 样 的 函数 只 会 尽 最 大 努力 
来 保存 这 些 数 据 。 一 些 基 本 信息 像 访 问 时 间 、 创 建 
时 间 以 及 权限 信息 总 是 会 得 到 保存 。 但 是 属 主 、 访 
问 控制 列表 、 资 源 派 生 (resource forks) 以 及 其 他 
扩展 的 文件 元 数据 可 能 会 也 可 能 不 会 得 到 保存 ， 这 
取 雇 于 操作 系统 底层 和 用 户 上 自身 的 访问 权限 。 你 很 
ts 会 想 去 用 shutil.copytree() 这 样 的 水 数 来 做 系 
统 备份 。 


当 和 文件 名 打交道 时 ， 确 保 使 用 的 是 os.path 中 
的 函数 ， 这 样 可 获得 最 佳 的 可 移植 性 〈 尤 其 是 如 果 
需要 同时 运行 于 UNIX 和 Windows 上 时 ) 。 例 如 : 

















>>> filename = '/Users/guido/programs/spam.py' 
>>> import os.path 


>>> os.path.basename( filename) 

"spam. py ' 

>>> os.path.dirname( filename ) 
'/Users/guido/programs' 

>>> os.path.split(filename) 
('/Users/guido/programs', 'spam.py' ) 

>>> os.path.join('/new/dir', os.path.basename( filename) ) 
'/new/dir/spam.py' 

>>> os.path.expanduser('~/guido/programs/spam.py' ) 
'/Users/guido/programs/spam.py' 

>>> 


| 


用 copytree0) 来 拷贝 目录 时 ， 一 个 比较 环 手 的 点 
在 于 错误 处 理 。 比 如 说 ， 在 找 贝 过 程 中 函数 可 能 会 
遇 到 已 经 损坏 的 符 亏 链接 ， 或 者 由 于 权限 问题 导致 
有 些 文 件 无 法 访问 等 等 诸如 此 类 的 问题 。 为 了 应 对 
这 些 情况 ， 所 有 遇 到 的 异 第 都 会 收集 到 一 个 列表 中 





并 将 其 归 组 为 一 个 单独 的 异常 ， 在 操作 结束 时 抛 
出 。 示 例如 下 : 





shutil.copytree(src, dst) 
except 


shutil.Error as 


for 


src, dst, msg in 


e.args[0O]: 
# src is source name 


# dst is destination name 


# msg is error message from exception 


print 


(dst, src, msg) 








如 采 提 供 了 关键 字 参 数 
ignore_dangling_sumlinks=True， 那 么 copytree() 将 会 
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ANAT ABR ZS BY PRICY Be ze ae Fe EFA Y o 1E 
是 ，shutil 模 块 中 还 有 许多 有 大 找 贝 数据 的 操作 。 进 
一 步 阅 读 相 关 的 文档 肯定 是 值得 的 ， 参 见 
http://docs.python.org/3/library/shutil.html 。 





13.8 创建 和 解 包 归档 文件 
13.8.1 问题 


我 们 需要 以 和 常见 的 格式 (如 .tar、.tgz 或 .zip) 来 
创建 或 解 包 归 档 文件 。 





13.8.2 ”解决 方案 


shutil 模 块 中 有 两 个 函数 一 一 make_archive() 和 和 
unpack_archive()， 它 们 正 是 我 们 所 需要 的 。 示 例如 
下 : 





>>> import shutil 


>>> shutil.unpack_archive( 'Python-3.3.0.tgz') 
>>> shutil.make_archive('py33', , 'Python-3.3.0') 


'/Users/beazley/Downloads/py33.zip' 
>>> 








make _archive() 的 第 二 个 参数 就 是 所 期 望 的 输 
出 格式 。 要 获取 所 文 持 的 归档 格式 列表 ， 可 以 使 用 
get_archive_formats() 函 数 。 示 例如 下 : 





>>> shutil.get_archive_formats() 

[('bztar', "bzip2'ed tar-file"), ('gztar', "gzip'ed tar-file"), 
('tar', ‘uncompressed tar file'), ('zip', 'ZIP file')] 

>>> 





13.8.3 ”讨论 
Python 中 还 有 其 他 模块 可 用 来 处 理 各 种 归档 格 





式 的 底层 细节 (例如 tarfile、zipfile、gzip、bz2 
等 ) 。 但 是 ， 如 果 想 做 的 只 是 创建 或 解 包 归 档 文 
件 ， 那 么 确实 没有 必要 使 用 如 此 故 层 的 模块 。 可 以 
直接 使 用 shutil 模 块 中 的 高 层 函 数 来 解决 。 

这 些 函 数 有 着 许多 额外 的 选项 ， 可 用 于 记录 日 
志 、 文 件 权 限 等 。 可 参阅 shutil 模 块 的 文档 以 获得 更 
多 的 细节 。 




















13.9 ”通过 名 称 来 查找 文件 
13.9.1 问题 


我 们 需要 编写 一 个 涉及 查找 文件 的 脚本 ， 比 如 
给 文件 重 命 名 或 者 日 志 归 档 程序 。 但 是 我 们 不 想 在 
Python 脚本 中 调用 shell 实 用 程序 ， 也 不 想 提 供 特 定 
的 行为 使 得 程序 无 法 轻易 地 分 发 出 去 使 用 。 


13.9.2 解决 方案 


搜索 文件 可 使 用 os.walk0 函 数 ， 只 要 将 顶层 日 
录 提 供给 它 即 可 。 下 面 示例 中 给 出 的 函数 用 来 查找 
aE 的 文件 名 ， 并 将 所 有 匹配 结果 的 绝对 路 径 
打印 出 来 : 








#!/usr/bin/env python3.3 


import os 


def 


findfile(start, name): 


for 
relpath, dirs, files in 


os.walk(start): 
if 


name in 


files: 
full_path = os.path.join(start, relpath, 
print 
(os.path.normpath(os.path.abspath(full_path) ) ) 
if 


__name__ == ' main__': 
findfile(sys.argv[1], sys.argv[2]) 


name ) 





将 这 个 脚本 保存 为 findfile.py 并 从 命令 行 运行 ， 
给 定 碍 找 的 起 始点 以 及 生 匹 配 的 文件 名 ， 束 像 下 面 
这 样 : 


bash % ./findfile.py . myfile.txt 


13.9.3 ”讨论 








os.walk(0) 方 法 会 为 我 们 过 历 目录 层级 ， 且 对 于 
进入 的 每 个 目录 它 都 会 返回 一 个 3 元 组 。 这 包 合 
正在 检视 的 目录 的 相对 路 径 、 访 目录 中 包含 的 所 有 
目录 名 的 列表 ， 以 及 该 目录 中 包含 的 所 有 文件 名 的 
列表 。 


对 于 每 个 元 组 ， 只 需 检 查 目 标 文件 是 否 在 file 
列表 中 即 可 。 如 条 是 ， 残 用 os.path.join(0) 来 组 成 一 
个 路 径 。 为 了 避免 出 现 可 能 像 ././foo//bar 这 样 的 诡异 
路 径 ， 还 要 用 到 两 个 额外 的 函数 来 修正 结果 。 第 一 
个 是 0s.path.abspath()， 它 接受 一 个 可 能 是 相对 的 路 
径 并 将 其 组 成 绝对 路 径 形 式 。 第 二 个 是 
os.path.normpathO0， 它 会 将 路 径 修 正 为 标准 化 形 
式 ， 从 而 帮助 解决 像 双 反 笠 线 、 多 当前 目录 的 多 次 
引用 等 问题 。 


尽管 这 个 脚本 同 UNIX 平 台 上 的 find 实 用 程序 相 
比 显 得 异常 简单 ， 但 它 具 有 跨 平台 的 优势 。 此 外 ， 
许多 额外 的 功能 都 能 够 以 可 移植 的 方式 加 入 进来 而 
无 需 耗费 太 多 精力 。 为 了 说 明 这 一 点 ， 下 面 这 个 函 
数 可 打印 出 所 有 最 近 有 修改 过 的 文件 : 


















































#!/usr/bin/env python3.3 


import os 


import time 


def 


modified_within(top, seconds): 
now = time.time() 
for 


path, dirs, files in 


os.walk(top): 
for 


name in 


files: 
fullpath = os.path.join(path, name) 
if 


os.path.exists(fullpath): 
mtime = os.path.getmtime(fullpath) 
if 


mtime > (now - seconds): 
print 


(fullpath) 


if 


_name == ' main  : 
import sys 


if 


len(sys.argv) != 3: 
print 


('Usage: {} dir seconds'.format(sys.argv[0]) ) 
raise SystemExit 


(1) 


modified_within(sys.argv[1], float(sys.argv[2])) 








在 这 个 短小 的 函数 之 上 构建 更 加 复杂 的 操作 并 
不 会 花费 太 多 时 间 ， 只 要 使 用 0s、os.path、glob 以 





及 类 似 模 块 中 的 各 种 功能 即 可 。 相 关 章 节 可 参阅 
5.11 节 和 5.13 节 。 


13.10 RMA 


13.10.1 问题 


我 们 想 要 读 取 以 弟 见 的 ,ini 格式 所 编写 的 配置 
Sire 


13.10.2 ”解决 方案 


可 以 用 configparser 模 块 来 读 取 配置 文件 。 例 
如 ， 假 设 有 一 个 这 样 的 配置 文件 : 








; config.ini 
; Sample configuration file 


[installation] 
library=%(prefix)s/lib 
include=%(prefix)s/include 
bin=%(prefix)s/bin 
prefix=/usr/local 


# Setting related to debug configuration 
[debug | 

log_errors=true 

show_warnings=False 


[server ] 

port: 8080 

nworkers: 32 
pid-file=/tmp/spam.pid 
root=/www/root 
Signature: 


Brought to you by the Python Cookbook 





下 面 的 示例 告诉 我 们 如 何 读 取 这 个 配置 文件 并 
提取 出 相应 的 值 : 


>>> from configparser import 


ConfigParser 

>>> cfg = ConfigParser() 

>>> cfg.read('config.ini' ) 
['config.ini' ] 

>>> cfg.sections() 

['installation', 'debug', 'server' | 
>>> cfg.get('installation', 'library') 
'/usr/local/1ib' 

>>> cfg.getboolean('debug', 'log_errors') 
True 

>>> cfg.getint('server', 'port') 

8080 


>>> cfg.getint('server', 'nworkers' ) 
32 
>>> print 


(cfg.get('server', 'signature' )) 





如 果 需 要 ， 也 可 以 使 用 cfg.write() 方 法 修改 配置 
并 写 回 到 原文 件 中 。 示 例如 下 : 





>>> cfg.set('server', 'port', '9000' ) 
>>> cfg.set('debug', 'log_errors', 'False' ) 
>>> import sys 


>>> cfg.write(sys.stdout ) 
[installation] 

library = %(prefix)s/lib 
include = %(prefix)s/include 
bin = %(prefix)s/bin 

prefix = /usr/local 


[debug | 
log_errors = False 


show_warnings = False 


[server] 

port = 9000 

nworkers = 32 

pid-file = /tmp/spam. pid 
root = /www/root 
Signature = 





13.10.3 ir 


配置 文件 以 易于 人 类 阅读 的 格式 对 程序 设 定 配 
置 数据 。 在 每 个 配置 文件 中 ， 值 被 归 组 到 不 同 的 区 
段 中 例如 本 例 中 
的 “installation”、“debug” 和 “server”) ， 然 后 在 每 个 
区 段 中 对 各 个 变量 设 定 值 。 








在 配置 文件 和 使 用 Python 来 编写 的 用 于 同样 目 
的 的 源 文件 之 则 有 着 几 个 显著 的 区 别 。 痛 先 ， 前 者 
的 语法 更 加 宽容 和 ?“ 晶 率 ”。 人 例如， 下面 这 些 赋 值 语 
句 的 效果 相同 : 


prefix=/usr/local 
prefix: /usr/local 


在 配置 文件 中 用 到 的 名 称 也 被 认为 是 非 大 小 写 
敏感 的 。 例 如 : 


>>> cfg.get('installation','PREFIX') 
'/usr/local' 
>>> cfg.get('installation', 'prefix') 


'/usr/local' 
>>> 





当 解 析 值 的 时 候 ， 像 getboolean0 这 样 的 方法 会 
检查 任何 合理 的 值 。 例 如 ， 下 面 这 些 语句 的 效果 都 
是 相同 的 : 





log_errors = true 
log_errors = TRUE 
log_errors = Yes 


log_errors = 1 





和 脚本 不 同 ， 也 许 在 配置 文件 和 Python 代码 之 


间 最 大 的 区 列 在 于 配置 文件 不 是 按照 从 上 到 下 的 方 
式 来 执行 的 。 相 反 ， 配 置 文件 会 被 全 部 读 取 。 如 果 
其 中 出 现 变 量 丛 换 的 操作 ， 则 它们 都 是 在 文件 全 部 
读 取 之 后 才 进 行 的。 比如 说 在 如 下 部 分 中 ， 在 其 他 
变量 使 用 prefix 之 前 是 否 对 它 完成 了 赋值 是 无 关 紧 


要 的 


[installation] 
library=%(prefix)s/lib 
include=%(prefix)s/include 
bin=%(prefix)s/bin 


prefix=/usr/local 








关于 ConfigParser， 一 个 容易 忽视 的 特性 是 它 
可 以 分 别 读 取 多 个 配置 文件 并 将 它们 的 结果 合并 成 
一 个 单独 的 配置 。 例 如 ， 假 设 某 位 用 户 创 建 了 他 们 
目 己 的 配置 文件 ， 看 起 来 是 这 样 的 : 











; ~/.config.ini 
[installation 
prefix=/Users/beazley/test 


[debug | 
log_errors=False 








这 个 文件 可 以 单独 读 取 ， 再 同 前 面 的 配置 合并 
在 一 示例 如 下 : 


>>> # Previously read configuration 


>>> cfg.get('installation', 'prefix') 
'/usr/local' 


>>> # Merge in user-specific configuration 


>>> import os 


>>> cfg.read(os.path.expanduser('~/.config.ini' )) 
['/Users/beazley/.config.ini' ] 

>>> cfg.get('installation', 'prefix') 
'/Users/beazley/test' 

>>> cfg.get('installation', '‘library') 
'/Users/beazley/test/1lib' 

>>> cfg.getboolean('debug', ‘log _errors') 

False 

>>> 











注意 观察 对 变量 prefix 的 修改 是 如 何 影 响 到 其 
他 相关 的 变量 的 ， 比 如 对 library 的 设 定 。 这 么 做 行 
得 通 是 因为 对 变量 的 插值 操作 是 尽 可 能 晚 才 执行 
的 。 可 以 通过 下 面 的 实验 看 出 这 一 点 : 











>>> cfg.get('installation', 'library') 
'/Users/beazley/test/1lib' 

>>> cfg.set('installation', 'prefix', '/tmp/dir' ) 
>>> cfg.get('installation', 'library' ) 
'/tmp/dir/lib' 

>>> 


| 


最 后 ， 需 要 重点 提 到 的 是 Python 并 不 能 对 在 其 
他 程序 中 使 用 的 .ni 文件 的 全 部 特性 都 提供 文 持 
(例如 Windows 上 的 应 用 ) 。 确 保 参 考 configparser 
的 文档 以 获得 更 详细 的 语法 和 所 文 持 特性 的 细 市 。 





13.11 给 脚本 添加 日 志 记 录 
13.11.1 问题 


我 们 想 让 脚本 和 简单 的 程序 可 以 将 诊断 信息 写 
入 到 日 志文 件 中 。 





13.11.2 解决 方案 


给 简单 的 程序 添加 日 志 功 能 ， 最 简单 方法 就 是 
使 用 logging 模 块 了 。 示 例如 下 : 











import logging 


def 


main(): 
# Configure the logging system 


logging .basicConfig( 
filename='app.log', 
level=logging.ERROR 
) 


# Variables (to make the calls that follow work) 


hostname = 'www.python.org' 


item = 'spam' 
filename = 'data.csv' 
mode = 'r' 


# Example logging calls (insert into your program) 


logging.critical('Host %s unknown', hostname) 
logging.error("Couldn't find %r", item) 
logging.warning('Feature is deprecated' ) 
logging.info('Opening file %r, mode=%r', filename, mode) 
logging.debug('Got here' ) 


if 


—_name__ == ' main __': 
main() 





这 5 个 logging 调 用 (critical(). error(). 
warning(). info), debug()) 分 列 代表 者 不 同 的 严 
重 级 别 ， 以 降序 排列 。basicConfig() 的 level 参 数 是 





一 个 过 滤器 ， 所 有 等 级 低 于 此 设 定 的 消息 都 会 被 忽 
略 掉 。 

每 个 日 志 操作 的 参数 都 是 一 条 字符 串 消息 ， 后 
面 跟着 零 个 或 多 个 参数 。 当 产生 日 志 消息 时 ，9% 操 
作 符 使 用 提供 的 参数 来 格式 化 字符 串 消 息 。 


如 果 运 行 这 个 程序 ， 文 件 app.1og 的 内 容 将 会 











EXIF H: 


CRITICAL:root:Host www.python.org unknown 
ERROR:root:Could not find 'spam' 





如 果 想 改变 输出 或 输出 的 严重 级 别 ， 可 以 通过 
修改 调用 basicConfig() 的 参数 来 实现 。 示 例如 下 : 


logging.basicConfig( 
filename='app.log', 
level=logging.WARNING, 
format='%(levelname)s:%(asctime)s:%(message)s' ) 





修改 后 输出 结果 变 成 了 下 和 面 这 样 : 


CRITICAL:2012-11-20 12:27:13,595:Host www.python.org unknown 
ERROR: 2012-11-20 12:27:13,595:Could not find 'spam' 
WARNING: 2012-11-20 12:27:13,595:Feature is deprecated 











如 上 所 示 ， 日 志 的 配置 信息 被 直接 便 编 码 到 了 
程序 中 。 如 果 想 从 配置 文件 中 进行 配置 ， 把 
basicConfig() 调 用 修改 成 如 下 形式 : 





import logging 


import logging.config 


def 


main(): 
# Configure the logging system 


logging.config.fileConfig( 'logconfig.ini' ) 





现在 创建 一 个 配置 文件 logconfig.ini ， 看 起 来 
是 这 样 的 : 





[loggers] 
keys=root 


[handlers] 
keys=defaultHandler 


[formatters] 
keys=defaultFormatter 


[logger_root] 
level=INFO 
handlers=defaultHandler 
qualname=root 


[handler_defaultHandler | 
class=FileHandler 
Fformatter=defaultFormatter 
args=('app.log', ‘a') 


[formatter_defaultFormatter ] 


format=%(levelname)s:%(name)s:%(message)s 





如 果 想 修改 配置 ， 直 接 编辑 logconfig.ini 文件 


即 可 。 
13.11.3 讨论 


对 于 logging 模 块 来 说 有 着 上 百 万 种 高 级 的 配置 
选项 可 用 ,但 此 时 让 我 们 暂时 忽略 这 些 细节 。 本 节 
给 出 的 解雇 方案 对 于 简单 的 程序 和 脚本 来 说 已 经 足 
够 用 了 。 只 要 保证 在 调用 任何 logging 调 用 之 前 先 调 
用 basicConfigO 即 可 ， 这 样 你 的 程序 将 能 够 产生 日 


志和 输出 。 


如 果 想 让 日 志 消 息 发 送 到 标准 错误 输出 而 不 是 
文件 中 ， 不 要 给 basicConfigO 提 供 任 何 文件 名 做 参 
数 即 可 。 例 如 ， 可 以 这 么 做 : 


logging.basicConfig(level=logging. INFO) 


天 于 basicConfig()， 一 个 微妙 的 地 方 在 于 它 只 
能 在 程序 中 调用 一 次 。 如 条 稍 后 需要 修改 日 专 模 块 
的 配置 ， 需 要 取得 根 日 志 对 象 (root logger) ŽA 
接 对 其 做 修改 。 示 例如 下 : 























logging.getLogger().level = logging.DEBUG 


Zi Ee TB al Ae, AS AREAS S logging HERR HY 
几 个 基本 用 法 ， 还 有 相当 多 的 高 级 定制 化 操作 可 
做 。 对 于 这 样 的 定制 化 操作 ， 一 个 极 佳 的 资源 
是 “Logging 
Cookbook” Chttp://docs.python.org/3/howto/logging- 
cookbook.html ) 。 





13.12 ÆA H RUK 
13.12.1 问题 


我 们 想 给 一 个 库 添加 日 志 功能 ， 但 是 又 不 希望 
它 影 响 那些 没有 使 用 日 志 功 能 的 程序 。 





13.12.2 ”解决 方案 


对 于 想 执 行 日 志 记 录 的 库 来 说 ， 应 该 创建 一 个 
专用 的 日 志 对 象 并 将 其 初始 化 为 如 下 形式 : 











# somelib.py 


import logging 


log = logging.getLogger(__name__) 
log.addHandler (logging.NullHandler() ) 


# Example function (for testing) 


log.critical('A Critical Error!') 
log.debug('A debug message' ) 





有 了 这 样 的 配置 ， 默 认 情 况 下 将 不 会 产生 任何 
日 志 输 出 。 例 如 : 


>>> import somelib 


>>> somelib.func() 
>>> 





但 是 ， 如 末日 志 系 统 得 到 适当 的 配置 ， 则 日 志 
消息 将 开始 出 现 。 示 例如 下 : 





>>> import logging 


>>> logging.basicConfig() 
>>> somelib.func() 


CRITICAL:somelib:A Critical Error! 
>>> 





13.123 ”讨论 


库 给 日 志 囊 来 了 一 个 特殊 的 问题 ， 即 ， 使 用 日 














中 尝试 去 自行 配置 日 志 系 统 ， 或 者 对 已 有 的 日 志 配 
置 做 任何 假设 。 因 此 ， 需 要 小 心 罗 加 地 提供 隅 离 措 
施 。 


getLogger( name _) 创 建 了 一 个 日 志 模 块 ， 其 
名 称 同 调用 它 的 模块 名 相同 。 由 于 所 有 的 模块 都 是 
唯一 的 ， 这 么 做 束 创 建 了 一 个 专用 的 日 志 对 象 ， 也 
束 与 其 他 的 日 志 对 象 阳 离开 了 。 


log.addHandler(logging.NullHandler()) 操 作 绑 定 
了 一 个 空 的 处 理 例 程 到 刚刚 创建 的 日 志 对 象 上 。 默 
认 情 况 下 ， 空 处 理 例 程 会 忽略 所 有 的 日 志 消 妃 。 
此 ， 如 果 用 到 了 这 个 库 且 日 志 系 统 从 未 配置 过 ， 那 
么 残 不 会 出 现任 何 日 志 消 息 或 警告 信息 。 


对 单个 库 的 日 志 记 录 可 以 独立 地 进行 配置 ， 不 
必 管 其 他 的 日 志 设 定 。 例 如 ， 考 虑 如 下 的 代码 : 


























>>> import logging 


>>> logging.basicConfig(level=logging.ERROR) 
>>> import somelib 


>>> somelib.func() 
CRITICAL:somelib:A Critical Error! 


>>> # Change the logging level for 'somelib' only 


>>> logging.getLogger('somelib').level=logging.DEBUG 
>>> somelib.func( ) 

CRITICAL:somelib:A Critical Error! 

DEBUG:somelib:A debug message 

>>> 





这 里 ， 根 日 志 对 象 已 经 被 配置 为 只 输出 





ERROR 或 更 高 等 级 的 消息 。 但 是 ，somelib 库 的 日 
志 等 级 已 经 被 单独 配置 为 输出 调试 消息 了 ， 这 个 设 
定 的 优先 级 要 高 于 全 局 设 定 。 


对 于 单个 模块 来 说 ， 能 够 像 这 样 修改 日 志 的 设 
定 会 是 一 个 非常 有 用 的 油 试 工具 。 因 为 我 们 不 必 去 
修改 任何 全 局 的 日 志 设 定 了 -en 
多 的 日 志 输 出 时 ， 只 要 针对 这 个 模块 修改 日 志 
即 可 。 











“Logging 
HOWTO?” Chttp://docs.python.org/3/howto/logging.htn 
) 一 文中 有 关于 配置 logging 模 块 以 及 其 他 一 些 有 用 
技巧 的 更 多 信息 。 





13.13 ”创建 一 个 秒表 计时 需 


13.13.1 问题 
我 们 想 记 录 执 行 各 项 任务 所 花费 的 时 间 。 


13.13.2 解决 方案 

time 模 块 中 包含 了 各 种 与 计时 相关 的 函数 。 但 
是 ， 通 音 在 这 些 函 数 之 上 构建 更 高 层 的 接口 来 模拟 
秒表 会 更 有 用 。 示 例如 下 : 




















import time 


class Timer 


def 


__ init__(self, func=time.perf_counter): 
self.elapsed = 0.0 
self. func = func 
self. start = None 


def 


start(self): 
if 


self. start is not 


None: 
raise RuntimeError 


('Already started' ) 
self._start = self._func() 


def 


stop(self): 
if 


self. start is 


None: 
raise RuntimeError 


('Not started' ) 
end = self. _func() 
self.elapsed += end - self 
self. start = None 


def 
reset(self): 
self.elapsed = 0.0 
@property 
def 


running(self): 
return 


._ Start 


self. start is not 


__enter__(self): 
self.start() 
return 


__exit__(self, *args): 
self.stop() 





XP REM SEN as, AT DRA Gs 





要 启动 、 停 止 和 重 置 它 。Timer 类 将 总 的 花费 时 间 
记录 在 elapsed 属 性 中 。 下 面 的 示例 展示 了 如 何 使 用 


这 个 类 : 





def 


countdown(n): 
while 


# Use 1: Explicit start/stop 


t = Timer() 
t.start() 
countdown(1000000 ) 
t.stop() 

print 

(t.elapsed) 


# Use 2: As a context manager 


with 


t: 
countdown(1000000 ) 
print 


(t.elapsed) 


with 


Timer() as 


t2: 
countdown( 1000000 ) 
print 


(t2.elapsed) 





13.13.3 ”讨论 


本 市 提供 了 一 个 简单 但 非 第 有 用 的 类 ， 可 用 来 
进行 计时 和 跟 躁 花费 的 时 间 。 这 个 类 也 很 好 地 演示 
本 如 何 支 持 上 下 文 管理 协议 以 及 对 with 语 句 的 使 
用 。 


在 进行 计时 测量 时 需要 考虑 底层 所 用 到 的 时 间 
消 数 。 一 般 来 说 ， 像 time.time0 或 者 time.clock() 的 
计时 精度 根据 操作 系统 的 不 同 而 有 所 区 别 。 相 反 ， 
time.perf_counter() 函 数 忌 是 会 使 用 系统 中 精度 最 高 
EA TEEN AS o 


如 同 前 面 所 展示 的 ， 由 Timer 类 记录 的 时 间 是 
系统 时 钟 时 间 ， 其 中 包含 了 所 有 的 休眠 期 时 间 。 如 
果 只 想 获 取 进 程 的 CPU 时 间 ， 可 以 用 
time.process_time() 取 代 。 示 例如 下 : 

















t = Timer(time.process_time) 
with 


t: 
countdown( 1000000) 
print 


(t.elapsed) 





time.perf_counter() 和 time.process_time() 都 返回 
秒 级 的 时 间 值 〈 以 浮 点 数 表 示 ) 。 但 是 单独 这 样 一 
个 时 间 值 没有 任何 意义， 要 使 得 结果 变 得 有 意义 ， 
必须 调用 函数 两 次 并 计算 两 次 时 间 的 并 。 


有 关 计 时 和 性 能 统计 分 析 的 更 多 主题 请 参阅 
14.13 








13.14 ”给 内 存 和 CPU 使 用 量 设 定 限 
iil 


13.14.1 问题 


我 们 想 对 运行 在 UNIX 系 统 上 的 程序 在 内 存 和 
CPU 的 使 用 量 上 设 定 一 些 限 制 。 





13.14.2 ”解决 方案 


resource 模 块 可 用 来 执行 这 样 的 任务 。 例 如 ， 
要 限制 CPU 时 间 可 以 这 样 做 : 





import signal 


import resource 


import os 


def 


time_exceeded(signo, frame): 


print 


("Time's up!") 
raise SystemExit 


set_max_runtime(seconds): 
# Install the signal handler and set a resource limit 


soft, hard = resource.getrlimit(resource.RLIMIT_CPU) 
resource.setrlimit(resource.RLIMIT_CPU, (seconds, hard) ) 
Signal.signal(signal.SIGXCPU, time_exceeded) 


if 
_name == ' main __': 
set_max_runtime(15) 
while 
True: 
pass 





运行 上 述 代 码 ， 当 超时 时 会 产生 SIGXCPU 信 
号 。 程 序 下 会 做 清理 工作 然后 退出 。 


要 限制 内 存 的 使 用 ， 可 以 在 使 用 的 总 地 址 空间 
上 设 定 一 个 限制 。 示 例如 下 : 


import resource 


def 


limit_memory(maxsize): 
soft, hard = resource.getrlimit(resource.RLIMIT_AS) 


resource.setrlimit(resource.RLIMIT_AS, (maxsize, hard) ) 





当 设 定 了 内 存 限制 后 ， 如 果 没 有 更 多 的 内 存 可 
用 ， 程 序 束 会 开始 产生 MemoryError 异 和 常 。 





13.14.3 ”讨论 


在 本 节 中 ， 我 们 通过 setrlimitO 函 数 来 为 特定 的 
资源 设 定 软 性 和 硬性 限制 。 软 性 限制 就 是 一 个 值 ， 
一 般 来 说 操作 系统 会 通过 信号 机 制 来 限制 或 通知 进 
程 。 硬 性 限制 代表 着 软 性 限制 值 的 上 限 。 通 常 ， 这 
些 值 是 由 系统 全 局 参数 所 控制 的 ， 它 们 会 由 系统 管 
理 员 来 设 定 。 虽 然 可 以 降低 硬性 限制 ， 但 这 个 过 程 
不 能 由 用 户 进 程 来 控制 〈 就 算 这 个 进程 要 降低 自己 
的 硬性 限制 也 不 行 ) 。 


setrlimit() EA BU Ay 以 用 来 设 定 比如 子 进 程 数 
、 可 打开 的 文件 数量 每 系统 资源 。 可 以 参阅 


resource 模 块 的 文档 以 获得 进一步 的 细节 。 


请 注意 ， 本 节 中 的 技术 只 能 用 于 UNIX 系 统 ， 
而 且 可 能 并 不 适用 于 所 有 的 UNIX 变 种 。 例 如 ， 当 
我 们 进行 测试 时 发 现在 Linux 上 可 以 正常 工作 但 在 
OS X 上 就 不 行 。 


13.15 Je Web] az 
13.15.1 问题 


我 们 想 从 脚本 中 加 载 一 个 浏览 器 并 让 它 打 开 指 
定 的 URL。 


13.15.2 ”解决 方案 


webbrowser 模 块 可 用 来 以 独立 于 平台 的 方式 加 
载 浏览 器 。 示 例如 下 : 


>>> import webbrowser 


>>> webbrowser.open( 'http://www.python.org' ) 


True 
>>> 





1X oe ER AAN Rart] Pt AY To MRA 
e 可 以 使 用 下 列 函 
之 一 : 


>>> # Open the page in a new browser window 


>>> webbrowser .open_new( 'http://www.python.org' ) 


>>> # Open the page in a new browser tab 


>>> webbrowser .open_new_tab( 'http://www.python.org' ) 
True 


>>> 





MRA ih at SCPE, IR SS ME TT 
ED DE Ae at BRERA W RFT IP EL o 
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webbrowser. get() PAI AUK Fa KEP ALAA Das. ZN 
例如 下 : 


>>> c = webbrowser .get('firefox') 

>>> c.open('http://www.python.org' ) 

True 

>>> Cc.open_new_tab('http://docs.python.org' ) 


True 
>>> 





文 持 的 浏览 器 名 称 的 完整 列表 可 以 在 Python 
文档 (http://docs.python.org/3/library/ 
webbrowser.html ) 中 找到 。 


13.15.3 ”讨论 


在 许多 脚本 中 ， 能 够 轻松 加 载 一 个 浏览 左 可 算 
是 一 项 有 用 的 操作 。 例 如 ， 也 许 脚 本 执行 了 荣 种 服 
务 志 部 赣 的 任务 ， 而 我 们 想 马 上 加 载 浏 览 器 来 验证 
这 和 是否 能 够 工作 。 或 者 菏 个 程序 把 数据 以 HTML 页 
面 的 形式 输出 ， 而 我 们 只 想 打开 浏览 器 但 看 结果 。 
无 论 怎 梓 ，webbrowser 模 块 者 是 一 种 简单 的 解决 方 
‘ee 


AN © 





第 14 章 ”测试 、 调 试 以 及 异 各 


测试 是 很 棒 的 一 件 事 ， 但 调试 就 没 那 么 有 趣 了 
吧 。 在 Python 解 释 器 执行 代码 之 前 并 没有 编译 器 来 
分 析 你 的 代码 ， 这 一 事实 使 得 测试 成 为 了 开发 中 至 
关 重 要 的 部 分 。 本 章 的 目的 是 讨论 一 些 与 测试 、 调 
试 以 及 异 第 处 理 相 关 的 钟 见 问题 。 本 音 不 是 为 测试 
IKANFFA (TDD) 或 者 unittest 模 块 做 简要 的 介绍 。 
因此 ， 我 们 假设 读者 已 经 对 软件 测试 方面 的 一 些 概 
念 有 所 了 解 。 


14.1 测试 发 送 到 stdout 上 的 输出 
14.1.1 问题 


我 们 的 程序 中 有 一 个 方法 会 将 输出 发 送 到 标准 
输出 上 Csys.stdout) 。 这 几乎 总 是 表示 它 会 把 文本 
发 送 到 屏 友 上。 我 们 想 为 自己 的 代码 编 写 一 个 测试 
用 例 ， 以 此 证 明 只 要 给 定 合适 的 输入 ， 则 会 在 屏幕 
上 显示 合适 的 输出 。 











14.1.2 解决 方案 


利用 unittest.mock 模 块 的 patch() 了 水 数 ， 很 容易 为 
单独 的 测试 用 例 模 拟 出 sys.stdout。 用 完 后 可 将 其 放 
回 ， 不 必 使 用 临时 变量 或 者 在 测试 用 例 之 间 芭 露 出 
模拟 的 状态 。 


考虑 下 面 这 个 位 于 mymodule 模 块 中 的 函数 : 











# mymodule.py 


def urlprint(protocol, host, domain): 
url = '{}://{}.{}'.format(protocol, host, domain) 


print(url) 





内 建 的 print 函 数 默 认 情 况 下 会 把 输出 发 往 
sys.stdout。 为 了 测试 输出 确实 会 发 往 sys.stdout， 可 
以 利用 一 个 对 象 作 为 sys.stdout 的 蔡 身 来 模拟 这 种 情 
况 ， 然 后 对 产生 的 结果 做 断言 处 理 。 利 用 
unittest.mock 模 块 的 patch0) 方 法 能 够 非常 方便 地 符 换 
对 象 ， 而 且 只 在 运行 的 测试 用 例 的 上 下 文中 生效 。 
在 测试 完成 后 ， 会 立刻 将 所 有 的 东西 返回 到 和 它们 的 
原始 状态 上 。 下 面 束 是 针对 mymodule 的 测试 代码 : 








from io import StringIO 

from unittest import TestCase 
from unittest.mock import patch 
import mymodule 


class TestURLPrint(TestCase): 
def test_url_gets_to_stdout(self): 
protocol = ‘'http' 
host = 'www' 
domain = 'example.com' 
expected_url = '{}://{}.{}\n'.format(protocol, host, dom 





with patch('sys.stdout', new=StringI0()) as fake_out: 
mymodule.urlprint(protocol, host, domain) 
self.assertEqual(fake_out.getvalue(), expected_url) 





14.1.3 讨论 


urlprint() 函 数 接受 三 个 参数 ， 测 试 代码 首先 为 
每 个 参数 设 定 一 个 哑 但 (dummy value) 。 变量 
expected_url 被 设 定 为 包含 期 望 输出 的 字符 串 。 


要 运行 这 个 测试 用 例 ，unittestmock.patchO 函 
数 用 来 当做 上 下 文 管理 器 ， 把 sys.stdout 的 值 符 换 为 
一 个 StringIO 对 象 。 在 这 个 过 程 中 会 创建 一 个 模拟 
对 象 ， 即 fake_out 变 量 。 可 以 在 with 语句 块 中 使 用 
fake_onut 来 执行 各 种 检查 。 当 with 语句 块 执行 完毕 
后 ，patch() 函 数 会 非常 方便 地 将 所 有 状态 还 原 为 测 
试 运行 之 前 时 的 状态 。 


值得 一 提 的 是 ， 某 些 特定 的 C 扩 展 模块 可 能 会 
通过 设 定 sys.stdout 直 接 往 标准 输出 写 数据 。 本 节 不 
针对 这 种 情况 做 特别 说 明 ， 但 对 于 纯 Python 代 码 来 
说 应 该 是 能 正常 工作 的 (如 果 需 要 从 这 种 C 扩 展 模 
块 中 捕获 MO， 可 以 打开 一 个 临时 文件 ， 然 后 让 标 
准 输出 临时 重 定向 到 那个 文件 来 完成 。 这 中 间 涉 及 
各 种 操作 文件 描述 符 的 技巧 ) 。 


有 关 在 字符 串 和 StringIO 对 象 中 捕获 WO 的 更 多 
信息 可 参见 5.6 节 。 























14.2 ”在 单元 测试 中 为 对 象 打 补 丁 
14.2.1 问题 


我 们 正在 编写 早 元 测试 ， 需 要 对 选 定 的 对 象 湛 
加 补丁 ， 以 此 才能 在 测试 中 针对 筷 们 的 使 用 情况 做 
吓 谨 处理 例 如， 对 特定 的 调用 参数 做 断言 、 访 问 
选 定 的 属性 时 做 断言 等 ) 。 








14.2.2 解决 方案 


unittest.mock.patch() 函 数 可 用 来 帮助 解决 这 个 
问题 。 虽 然 不 太 常 见 ， 但 patch() 函 数 用 法 较 多 ， 可 
当做 装饰 器 、 上 下 文 管理 器 或 者 单独 使 用 。 例 如 ， 
在 下 面 的 示例 中 我 们 把 它 当 做 次 饰 夯 来 用 : 
from unittest.mock import patch 
import example 


@patch('example.func' ) 
def testi(x, mock_func): 


example. func(x) # Uses patched example. func 
mock_func.assert_called_with(x) 





也 可 以 把 它 当 做 上 下 文 管理 器 来 用 : 


with patch('example.func') as mock_func: 
example. func(x) # Uses patched example. func 
mock_func.assert_called_with(x) 








最 后 但 同样 重要 的 是 ， 也 可 以 用 它 来 手动 打 补 





J: 


p = patch('example.func' ) 
mock_func = p.start() 

example. func(x) 
mock_func.assert_called_with(x) 
p.stop() 





MRA Ta, FY DORE Re TB ae EB SC ee BE 
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@patch('example.funct' ) 
@patch('example.func2' ) 
@patch('example.func3' ) 
def testi(mocki, mock2, mock3): 


def test2(): 


with patch('example.patch1i') as mocki, \ 
patch('example.patch2') as mock2, \ 
patch('example.patch3') as mock3: 





14.2.3 ”讨论 


patch() 接 受 一 个 已 有 对 象 的 完全 限定 名 称 并 将 
其 蔡 换 为 一 个 新 值 。 在 装饰 器 函数 或 者 上 下 文 管理 
器 结 束 执 行 后 会 将 对 象 恢复 为 原始 值 。 默 认 情 况 
下 ， 对 象 会 被 蔡 换 为 MagicMock 实 例 。 示 例如 下 : 


>>> with patch(' main .x'): 
ee print(x) 


<MagicMock name='x' id='4314230032'> 





(Eze, KEEN DORM R E ATE AA PR A EB 
值 ， 只 要 将 值 作为 patch() 的 第 二 个 参数 传 入 H 可 : 


>>> with patch(' main .x', 'patched_value'): 
print(x) 


patched_value 





MagicMock3& fil] — fi 4% 4 VE SPIER, SE 
模仿 可 调用 对 象 和 实例 。 它 们 会 记录 使 用 信息 而 且 
允许 创建 断言 。 示 例如 下 : 


>>> from unittest.mock import MagicMock 
>>> m = MagicMock(return_value = 10) 
>>> m(1, 2, debug=True) 
10 
>>> m.assert_called_with(1, 2, debug=True) 
>>> m.assert_called_with(1, 2) 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File ".../unittest/mock.py", line 726, in assert_called_with 

raise AssertionError(msg) 

AssertionError: Expected call: mock(1, 2) 
Actual call: mock(1, 2, debug=True) 


>>> 
>>> m.upper.return_value = 'HELLO' 
>>> m.upper('hello' ) 

"HELLO' 


>>> assert m.upper.called 


>>> m.split.return_value = ['hello', ‘world' | 
>>> m.split('hello world' ) 

['hello', 'world' ] 

>>> m.split.assert_called_with('hello world' ) 
>>> 


>>> m[ 'blah' ] 

<MagicMock name='mock.__getitem__()' 1id='4314412048'> 
>>> m.__getitem__.called 

True 

>>> m.__getitem__.assert_called_with('blah' ) 

>>> 











一 般 来 说 ， 这 关 操 作 都 是 在 单元 测试 中 进行 


的 。 例 如 ， 假 设 有 如 下 的 函数 : 





# example.py 
from urllib.request import urlopen 
import csv 


def dowprices(): 


u = urlopen( 'http://finance.yahoo.com/d/quotes.csv?s=@\DJI&Ff 
lines = (line.decode('utf-8') for line in u) 

rows = (row for row in csv.reader(lines) if len(row) == 2) 
prices = { name:float(price) for name, price in rows } 
return prices 





通常 ， 这 个 函数 会 使 用 urlopen0 从 Web 上 抓 取 
一 些 数据 然后 进行 解析 。 要 对 这 个 函数 做 单元 测 
试 ， 我 们 可 能 会 想 上 自己 创建 一 份 更 加 可 预测 的 数据 
集 ， 然 后 将 其 作为 函数 的 测试 数据 。 下 面 的 示例 采 
用 了 前 文 讨 论 过 的 补丁 技术 : 











import unittest 

from unittest.mock import patch 
import io 

import example 


sample_data = io.BytesI0O(b'''\ 
"TBM", 91.4\r 

"AA", 13.25\r 

"MSFT" ,27.72\r 

\r 
tit ) 


class Tests(unittest.TestCase): 
@patch('example.urlopen', return_value=sample_data) 
def test_dowprices(self, mock_urlopen): 
p = example.dowprices() 
self.assertTrue(mock_urlopen.called) 
self.assertEqual(p, 
{'IBM': 91.4, 
'AA': 13.25, 
'MSFT' : 27.72}) 


if _name_ == ' main _': 
unittest.main( ) 


在 这 个 示例 中 ，example 模 块 中 有 的 urlopen() 函 数 
被 蔡 换 成 了 一 个 mock 对 象 ， 返 回 的 BytesI00 中 束 包 
含 者 作为 蔡 代 的 样 例 数 据 。 


关于 这 个 测试 ， 一 个 重要 但 微妙 的 地 方 在 于 我 
们 是 对 example.urlopen 打 补丁 而 不 是 针对 
urllib.request.urlopen。 在 打 补 本 时 ， 使 用 的 名 称 必 
须 和 被 测 代码 中 使 用 的 名 称 保 持 一 致 。 由 于 示例 代 
但 使 用 的 是 from urllib.request import urlopen， 因 此 
实际 上 由 函数 dowprices(0) 调 用 的 urlopen0) 其 实 是 位 
于 example 模 块 中 的 。 


本 节 仪 仅 只 是 小 小 体验 了 一 下 unittest.mock 模 
块 的 功能 。 要 使 用 更 加 高 级 的 功能 和 特性 ， 官 方 文 
档 Chttp://docs.python.org/3/library/unittest.mock ) 
是 必 读 的 资料 。 








14.3 ”在 单元 测试 中 检测 异 第 情况 
14.3.1 问题 


我 们 想 编写 一 个 能 够 快速 检测 卉 第 的 单元 测 
试 。 


14.3.2 解决 方案 
检测 异常 可 使 用 assertRaise() 方 法 。 例 如 ， 如 果 


想 检 查 某 个 函数 是 否 引 发 了 ValueError 异 党 ， 可 以 
使 用 下 面 的 代码 完成 : 





import unittest 


# A simple function to illustrate 


def 


parse_int(s): 
return 


int(s) 


class TestConversion 


(unittest.TestCase): 
def 


test_bad_int(self): 
self .assertRaises(ValueError 


, parse_int, 'N/A') 








UR ti ARRA Sh os EL, AS a Ze 


FARIA PEA ATTA. ANION F: 





import errno 


class TestI0 


(unittest.TestCase): 
def 


test_file_not_found(self): 
try 





f = open('/file/not/found' ) 
except I0Error as 


self.assertEqual(e.errno, errno.ENOENT) 
else 


self.fail('IOError not raised' ) 





14.3.3 ”讨论 


assertRaise() 方 法 提供 了 一 种 简便 的 方式 来 测试 
是 否 有 异常 出 现 。 编 写 测试 代码 时 ， 一 个 常见 的 误 
区 就 是 自己 手工 尝试 用 try 和 except 来 处 理 异 常 。 比 
如 : 





class TestConversion 


(unittest.TestCase): 
def 


test_bad_int(self): 
try 


r = parse_int('N/A') 
except ValueError as 


self.assertEqual(type(e), ValueError 


| 


eee 况 ， 比 如 
当 根 本 没有 有 寞 单产 生 时 。 为 了 应 对 这 后， 需要 为 这 
种 情况 添加 一 个 检查 ， 示 例如 下 : 


class TestConversion 


(unittest.TestCase): 
def 


test_bad_int(self): 
try 


r = parse_int('N/A') 
except ValueError as 


self.assertEqual(type(e), ValueError 


self.fail('ValueError not raised' ) 





assertRaises(0) 方 法 则 着 我 们 处 理 了 所 有 这 些 细 





市 ， 所 以 应 该 尽量 多 使 用 它 。 


assertRaisesO 的 局 限 性 在 于 对 于 所 产生 的 异 第 
对 象 的 值 ， 并 不 提供 测试 方法 。 要 实现 这 一 目的 ， 
必须 像 上 面 的 示例 那样 手动 进行 测试 。 在 这 两 种 极 
站 情况 之 间 ， 可 能 会 考虑 使 用 assertRaisesRegex() 方 
法 。 该 方法 允许 我 们 在 测试 异常 的 同时 还 可 以 针对 
异常 的 字符 串 表 示 进 行 正则 表达 式 匹配 。 示 例如 
下 : 














class TestConversion 


(unittest.TestCase): 
def 


test_bad_int(self): 
self.assertRaisesRegex(ValueError 


, ‘invalid literal .*' 
parse_int, 'N/A') 





天 于 assertRaises() 和 assertRaisesRegex() 还 有 一 
个 鲜 为 人 知 的 事实 ， 即 ， 它 们 也 可 以 当做 上 下 文 管 
理 器 来 使 用 : 


class TestConversion 


(unittest.TestCase): 
def 


test_bad_int(self): 
with 


self.assertRaisesRegex(ValueError 


‘invalid literal .*'): 
r = parse_int('N/A') 


了 





如 果 我 们 的 测试 除了 要 执行 一 个 可 调用 对 象 之 
外 还 涉及 多 个 步 又， 那么 上 下 文 管理 器 的 形式 惑 很 
有 用 了 。 


14.4 将 测试 结果 作为 日 志 记 录 到 
文件 中 


14.4.1 问题 





我 们 想 把 单元 测试 的 结果 写 入 到 文件 中 ， 而 不 
征 打印 到 标准 输出 上 。 


14.4.2 解决 方案 


运行 蛙 元 测试 的 一 种 非常 弟 用 的 技术 就 古 在 测 
试 文件 的 部 包含 下 列 代码 : 








import unittest 


class MyTest 
(unittest.TestCase): 
if 


—_name__ == ' main __': 
unittest.main() 


这 么 做 会 让 测试 文件 变 为 可 执行 文件 ， 而 且 会 
把 测试 结果 打印 到 标准 输出 上 。 如 果 想 对 输出 做 重 
定 同 ， 需 要 将 原来 的 main0 展 开 ， 人 然后 编写 自己 的 
main() 疯 数 。 示 例如 下 : 





import sys 


def 


main(out=sys.stderr, verbosity=2): 
loader = unittest.TestLoader () 
suite = loader.loadTestsFromModule(sys.modules[_name__]) 
unittest.TextTestRunner (out, verbosity=verbosity).run(suite) 


—_name_— == ' main __ 
with 


open('testing.out', 'w') as 


main(f) 





14.4.3 讨论 








本 节 中 有 趣 的 地 方 不 在 于 将 测试 结果 重 定 向 到 
文件 中 ， 而 是 当 这 么 做 的 时 候 暴 露 了 unittest 模 块 内 
部 值得 注意 的 一 些 工 作 原 理 。 


从 基本 的 层次 来 说 ，unittest 模 块 首 先 会 组 装 一 
个 测试 套件 。 这 个 测试 套件 中 包含 了 各 种 定义 的 测 
斌 方法。 一 旦 套件 装配 完成 ， 它 所 包含 的 测试 束 开 
始 执行 。 


单元 测试 的 这 两 个 部 分 是 彼此 相 分 离 的 。 解 决 

案 中 创建 的 unittest. ea 是 用 来 组 装 测 
试 套 件 的 。 而 loadTestsFromModule() 是 TestLoader 
的 几 个 实例 方法 之 一 ， 用 来 收集 测试 。 在 这 种 情况 
下 ， 它 会 为 TestCase 类 扫 摘 模块 ， 并 从 模块 中 提取 
出 测试 方法 。 如 果 想 获得 更 细 粒 度 的 控制 ， 可 以 用 
loadTestsFromTestCase() 方 法 (本 节 未 给 出 ) 从 继 
承 目 TestCase 的 子 类 中 提取 测试 方法 。 

TextTestRunner 类 是 一 个 测试 运行 类 的 例子 。 
该 类 的 主要 目的 加 是 运行 包含 在 测试 套件 中 的 测 
试 。 这 个 类 也 是 unittest.main0O 函 数 所 使 用 的 测试 运 
行 类 。 但 是 ， 这 里 我 们 还 对 它 做 了 一 点 后 层 配 置 ， 
包括 设置 输出 文件 和 输出 信息 的 详细 程度 。 


尽管 本 节 中 只 JN 包含 I JLAT ARES, 但 对 于 读者 今 
后 应 该 如 何 定制 化 unittest 框 架 带 来 了 一 些 启示 。 要 



































定制 化 测试 套件 的 靖 配 过 程 ， 可 以 利用 TestLoader 
类 的 各 种 操作 来 完成 。 要 定制 化 测试 的 执行 ， 可 以 
创建 自 定 义 的 测试 运行 类 ， 以 此 模拟 出 
TextTestRunner 类 的 功能 。 这 些 主题 都 超出 了 本 节 
可 以 涵盖 的 范围 。 但 是 ，unittest 模 块 的 文档 中 对 这 
些 底层 的 协议 有 痢 详 尽 的 说 明 。 


14.5” 跳 过 测试 ， 或 者 预计 测试 结 
果 为 失败 
14.5.1 问题 


我 们 想 在 自己 的 单元 测试 中 跳 过 某 些 测试 ， 或 
者 选择 几 个 测试 将 它们 标记 为 预测 会 失败 。 


14.5.2 解决 方案 


unittest 柑 块 中 有 一 些 装 饰 占 可 作用 于 所 选 的 测 
试 方法 上 ， 以 此 控制 它们 的 处 理 行为 。 示 例如 下 : 





import unittest 


import os 


import platform 


class Tests 


(unittest.TestCase): 


def 
test_O(self): 
self.assertTrue(True) 
@unittest.skip('skipped test') 
def 
test_1(self): 
self.fail('should have failed!') 
@unittest.skipIf(os.name=='posix', 'Not supported on Unix' ) 
def 
test_2(self): 
import winreg 
@unittest.skipUnless(platform.system() == 'Darwin', 'Mac spe 
def 
test_3(self): 


self.assertTrue(True) 


@unittest.expectedFailure 
def 


test_4(self): 
self.assertEqual(2+2, 5) 


if 


_name == ' main __': 
unittest.main() 





如 果 在 一 台 Mac 电 脑 上 运行 上 述 代 码 ， 将 得 到 
如 下 输出 : 


bash % python3 pra py -v 
.Tests) ok 
.Tests) ... | skipped "skipped test' 








.Tests) ... Skipped 'Not supported on Unix' 
.Tests) ... ok 
.Tests) ... expected failure 











Ran 5 tests in 0.002s 


OK (skipped=2, expected failures=1) 





14.5.3 ”讨论 


闭 饰 器 skipO) 可 用 来 跳 过 某 个 根本 就 不 想 运 行 
的 测试 。skipIfO 和 skipUnlessO 在 编写 那些 只 针对 特 
定 平 台 或 Python 版 本 甚至 其 他 依赖 的 测试 时 非常 有 
pe 对 于 已 知 会 失败 的 测试 项 ， 而 又 不 想 让 测试 杠 
SRE OE te eg. ASA Ay DA Se H Be as 
@expectedFailure 对 其 进行 标注 。 


用 来 跳 过 检查 的 狠 饰 夯 同 样 可 以 作用 到 整个 测 
试 类 上 。 示 例如 下 : 


@unittest.skipUnless(platform.system() == 'Darwin', 'Mac specifi 
class DarwinTests 








(unittest.TestCase): 





14.6 ”处 理 多 个 异常 
14.6.1 问题 
我 们 有 一 段 代 码 可 以 抛 出 几 个 不 同 的 异常 ， 而 


我 们 需要 负责 处 理 所 有 可 能 会 及 生 的 卉 种 。 要 求 处 
理 的 时 候 无 需 创建 重复 代码 或 者 见长 的 代码 段 。 








14.6.2 解决 方案 


如 果 能 够 用 一 个 单独 的 代码 块 处 理 所 有 不 同 的 
异常 ， 可 以 将 它们 归 组 到 一 个 元 组 中 。 示 例如 下 : 


client_obj.get_url(url) 
except 


(URLError, ValueError 


, socketTimeout): 
client_obj.remove_url(url) 





在 上 面 的 代码 中 ， 如 果 列 出 的 这 些 异 常 中 有 任 
何 一 个 出 现 ， 则 会 调用 remove_url0 方 法 。 为 一 方 
面 ， 如 有 果 需 要 对 其 中 某 个 寞 涅 采取 不 同 的 处 理 办 
法 ， 可 以 将 其 放 入 单独 的 except 子 句 中 去 : 





client_obj.get_url(url) 
except 


(URLError, ValueError 


): 


client_obj.remove_url(url) 
except 


SocketTimeout : 
client_obj.handle_url_timeout (url) 





AVE SE FS AB Se BVA ZA VAR RIA Ro EPI 
Woe, FY Da ta xe SSE RT WY 
单 。 例 如 ， 与 其 像 这 样 编写 代码 : 


f = open(filename) 
except 


(FileNotFoundError, PermissionError): 








不 如 像 这 样 重 写 except 语 人 句 : 


f = open(filename) 
except OSError 





这 么 做 是 可 行 的 ， 因 为 OSError 是 其 类 
FileNotFoundError 和 PermissionError 异 常 都 是 它 EWN 


X, 


14.6.3 ”讨论 


值得 一 所 的 是 ， 可 以 在 抛 出 的 腊 常 上 使 用 关键 
字 as， 尺 官 这 并 非 古 特定 于 处 理 多 个 异 第 的 技术 。 








f = open(filename) 
except OSError as 


e: 
if 


e.errno == errno.ENOENT: 
logger.error('File not found') 
elif 


e.errno == errno. EACCES: 
logger.error('Permission denied' ) 
else 


logger.error( ‘Unexpected error: %d', e.errno) 





在 上 面 的 例子 中 ， 变 量 e 保 存 着 异常 OSError 的 
实例 。 如 果 之 后 需要 检查 这 个 异常 ， 比 如 要 根据 额 
外 的 状态 码 来 进行 处 理 ， 那 这 惑 很 有 用 了 。 


需要 注意 的 是 ，except 子 句 是 按照 列 出 的 顺序 
进行 检查 的 ， 而 第 一 个 匹配 成 功 的 子 句 将 得 到 执 
行 。 虽 然 这 么 做 会 有 些 病 态 ， 但 是 可 以 轻易 地 创建 
出 多 个 except 子 句 都 可 能 匹配 的 情况 。 示 例如 下 : 











>>> f = open('missing ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
FileNotFoundError: [Errno 2] No such file or directory: 'missing 
>>> try 


f = open('missing' ) 
. except OSError 


print 


(‘It failed') 
. except 


FileNotFoundError: 
print 


('File not found' ) 


It failed 
>>> 





这 里 的 except FileNotFoundError 子 句 不 会 执 
行 ， 因 为 OSError 更 加 一 般 化 ， 它 也 能 匹配 
FileNotFoundError 异 常 ， 而 且 它 是 首先 列 出 的 ， 


此 会 先 匹 配 执 行 。 


给 大 家 一 个 调试 的 小 技巧 ， 如 果 你 不 能 完全 确 
定 攻 个 特定 异常 的 类 层次 结构 ， 可 以 通过 检查 弄 季 
的 mro RER REA H. IAA F: 





>>> FileNotFoundError. mro__ 
(<class 'FileNotFoundError'>, <class 'OSError'>, <class 'Exceptit 
<class 'BaseException'>, <class 'object'>) 


>>> 








以 上 列 出 的 这 些 类 中 ， 只 要 排 在 BaseException 
之 前 的 都 可 以 用 在 except 语 句 中 。 


14.7 RNA HE E 
14.7.1 问题 
我 们 想 编写 代码 来 捕获 所 有 的 异常 。 





14.7.2 ”解决 方案 


要 捕获 所 有 的 异常 ， 可 以 为 Exception 类 编写 一 
个 异常 处 理 程序 ， 示 例如 下 : 


except Exception as 


e: 


log('Reason:', e) # Important! 





除了 SystemExit、KeyboardInterrupt 和 


GeneratorExit 之 外 ， 上 面 的 代码 能 够 捕获 所 有 的 寞 
第 。 如 果 也 想 捕获 这 些 寞 单 的 话 ， 只 要 把 Exception 
修改 为 BaseException 即 可 。 








14.7.3 ”讨论 


有 时 候 当 程序 员 没 法 记 住人 菏 个 复杂 操作 中 可 能 
产生 的 所 腊 党 时， 捕获 所 有 的 寞 津 就 成 了 他 们 唯 
一 的 文 柱 。 同 样 ， 如 果 你 不 够 小 心 的 话 ， 这 也 是 写 
出 无 法 调试 的 代码 的 绝 佳 方式 。 


正 因 为 如 此 ， 如 果 选 择 捕获 所 有 的 异常 ， 那 么 
针对 异常 产生 的 实际 原因 做 日 志 记 录 或 报告 就 绝对 
是 至 关 重 要 的 了 (例如 ， 产 生日 志文 件 ， 或 者 将 出 
错 信息 打印 到 屏幕 上 等 ) 。 如 果 不 这 么 做 ， 那 么 某 
e a 考虑 下 面 这 
示例: 

















def 


parse_int(s): 
try 


n = int(v) 
except Exception 


print 


("Couldn't parse") 








如 果 试 着 调用 这 个 函数 ， 它 的 行为 是 这 样 的 : 


>>> parse_int('n/a') 
Couldn't parse 

>>> parse_int('42') 
Couldn't parse 

>>> 





此 时 ， 你 可 能 会 抓 看 脑袋 想 为 什么 它 不 能 工作 
Ne? 现在 假设 函数 被 改写 为 如 下 形式 : 





def 


parse_int(s): 
try 


n = int(v) 
except Exception as 


print 


("Couldn't parse") 
print 


('Reason:', e) 





在 这 种 情况 下 ， 会 得 到 如 下 形式 的 输出 ， 能 够 
清楚 表明 上 述 代码 中 出 现 了 一 个 纺 程 错误 : 
>>> parse_int('42') 


Couldn't parse 
Reason: global name 'v' is not defined 


>>> 














所 有 事情 都 是 平等 的 ， 在 处 理 寞 常 的 时 候 最 好 
还 是 尺 可 能 使 用 精确 的 腊 党 类。 但是， 如 果 必 须 捕 
锋 所 有 的 寞 浊 ， 那 就 要 确保 提供 蜗 质 量 的 诊断 信 
晨 ， 或 者 将 腊 党 传播 出 去 ， 这 样 束 不 会 丢失 异 沼 产 
生 的 原因 。 








14.8 EEH EXE 
14.8.1 问题 


ENT IE FE RES A, WAW JRE oe A E 
行 包装 从 而 打造 出 自 定义 的 寞 第 类 。 这 种 目 定 义 的 
寞 第 在 应 用 程序 的 上 下 文 环 境 中 可 以 包含 更 多 的 含 
Ki 








14.8.2 ”解决 方案 


创建 新 的 异 第 是 非常 简单 的 只 要 将 它们 定 
义 成 继承 目 Exception 的 类 即 可 (也 可 以 继承 上 自 其 他 
已 有 的 异常 类 型 ， 如 果 这 么 做 更 有 道理 的 话 ) 。 例 
如 ， 如 果 正 在 编写 网 络 编程 相关 的 代码 ， 则 可 能 会 
像 这 样 定义 一 些 自 定义 的 异常 : 

















class NetworkError 


(Exception 


) : 


pass 


class HostnameError 


(NetworkError): 


pass 


class TimeoutError 


(NetworkError): 


pass 


class ProtocolError 


(NetworkError ) : 
pass 











用 户 能 够 以 普通 的 方式 来 使 用 这 些 异 常 ， 示 例 
如 下 : 





try 


msg = s.recv() 
except 


TimeoutError as 


e: 


except 
ProtocolError as 


e: 





14.8.3 phir 





Fi xe SCA Se T AMIZ AE RK EAN 2 
Exception 类 ， 或 者 继承 目 一 些 本 地 定义 的 基 类 ， 而 
XP FERAL Ve AK A Exception). VARTA HY 
异常 也 都 继承 自 BaseException， 但 不 应 该 将 它 作为 
基 类 来 产生 新 的 异常 。BaseException 是 预 留 给 系统 
退出 寞 第 的 ， 比 如 KeyboardInterrupt 或 者 
SystemExit， 以 及 其 他 应 该 通知 应 用 程序 退出 的 异 
第 。 因 此 ， 捕 获 这 些 寞 沿 并 不 适用 于 它们 本 来 的 用 
途 。 假 设 逛 循 这 个 约定 ， 从 BaseException 继 承 而 来 
的 目 定义 开 第 将 无 法 捕获 ， 也 不 能 通知 应 用 程序 天 
闭 ! 

在 上 自己 的 应 用 中 使 用 目 定 义 的 异常 ， 这 使 得 任 


何 需 要 阅读 源 代 码 的 人 能 够 更 好 地 理解 程序 的 行 
为 。 有 一 种 设计 上 的 考虑 十 通过 继承 机 制 将 目 定 义 
































的 异常 归 类 到 一 起 。 在 复杂 的 应 用 中 ， 引 入 更 高 层 
的 基 类 将 不 同 的 异常 类 归 组 到 一 起 是 很 有 意义 的 。 
这 给 了 用 户 捕获 细 粒 度 错误 的 能 力 ， 比 如 : 








s.send(msg) 
except 


ProtocolError: 








i 但 同样 也 能 够 捕获 粗 粒 度 范 围 内 的 错误 ， 上 
Hs 


s.send(msg) 
except 


NetworkError: 





OUR TT EE LST Fs FF XS Exception 
的 init 0 方法 ， 请 确 你 总 是 用 所 有 传递 过 来 的 参数 
调用 Exception.init 0。 示 例如 下 : 


class CustomError 


(Exception 


def 


__init__(self, message, status): 
super().__init__ (message, status) 
self.message = message 
self.status = status 














这 可 能 看 起 来 有 点 古怪 ， 但 是 Exception 的 默认 
行为 就 是 接受 所 有 传递 过 来 的 参数 并 将 它们 以 元 组 
的 形式 保存 到 .args 属 性 中 。Python 中 的 其 他 组 件 以 
及 各 种 各 样 的 库 都 期 望 所 有 的 异 第 都 有 一 个 .args 属 
性 ， 因 此 如 果 跳 过 了 这 一 步 ， 那 么 就 会 发 现 新 创建 
的 异常 在 特定 上 下 文 环境 中 表现 出 不 正确 的 行为 。 
为 了 说 明 对 .args 的 使 用 ， 考 虑 下 面 的 交互 式 会 话 ， 
这 里 用 到 了 内 建 的 RuntimeError 异 常 ， 注 意 在 raise 
语句 中 可 以 使 用 多 少 个 参数 : 


>>> try 











raise RuntimeError 


(‘It failed') 
except RuntimeError as 


print 


(e.args) 


(‘It failed', ) 
>>> try 


raise RuntimeError 


('It failed', 42, 'spam') 
except RuntimeError as 


print 


(e.args) 


('It failed', 42, 'spam') 
>>> 














ets SKY GE AE MARNE SAR, WA 
a] Python 3C#4 ([http://docs. python.org/3/ 
tutorial/errors.html](http://docs. python.org/3/ 
tutorial/errors.html)) 。 


14.9 WS] Ae ORM DV Ae 


14.9.1 问题 





我 们 想 引 友 一 个 异常 作为 捕获 男 一 个 异常 时 的 
啊 应 ， 但 是 希望 在 traceback 回 溯 中 同时 包含 这 两 个 
异常 的 有 天 信息 。 








14.9.2 解决 方案 


要 将 异常 串联 起 来 ， 可 以 用 raise fromt AR$ 
代 普 通 的 raise。 这 么 做 能 够 提供 这 两 个 异常 的 有 关 
信息 o 示例 如 下 : 








>>> def 


example(): 
try 


int('N/A') 
wi ei except ValueError as 


raise RuntimeError 


('A parsing error occurred') frome... 


example() 
Traceback (most recent call last): 
File "<stdin>", line 3, in example 
ValueError: invalid literal for int() with base 10: 'N/A' 


The above exception was the direct cause of the following except 


Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 5, in example 

RuntimeError: A parsing error occurred 

>>> 











在 traceback 回 溯 中 可 以 发 现 这 两 个 异 和 帝都 被 捕 
获 了 。 要 捕获 这 样 的 异 党 ， 可 以 使 用 普通 的 except 
语句 。 但 是 ， 可 以 通过 查看 异常 对 象 的 cause 属性 
来 跟 踊 所 希望 的 异常 链 。 示 例如 下 : 








example() 
except RuntimeError as 


print 


("It didn't work:", e) 
if 


('Cause:', e.__cause ) 





当 在 except 语 句 块 中 引发 男 一 个 异常 时 ， 此 时 





会 产生 异常 链 的 隐 式 形式 。 示 例如 下 : 





>>> def 


example2(): 
z try 


int('N/A') 
A except ValueError as 


print 


("Couldn't parse:", err) 


>>> 
>>> example2() 
Traceback (most recent call last): 
File "<stdin>", line 3, in example2 
ValueError: invalid literal for int() with base 10: 'N/A' 


During handling of the above exception, another exception occurr 


Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 

File "<stdin>", line 5, in example2 
NameError: global name 'err' is not defined 
>>> 








FER“ Bal FF AY AERA E HA is 








轧 ， 但 是 这 与 第 一 个 例子 有 所 不 同 。 在 这 种 情况 
下 ，NameError 和 异常 是 由 于 编程 错误 而 产生 的 ， 并 
非 是 对 解析 错误 的 直接 啊 应 。 因 此 在 这 种 情况 下 ， 
异常 对 象 的 cause 属性 并 没有 被 设置 。 相 反 ， 会 把 
context 属性 设置 为 前 一 个 异常 〈 即 ， 

ValueError) 。 


如 果 出 于 某 种 原因 想 阻 止 异 当 链 的 产生 ， 可 以 
使 用 raise from None 来 完成 : 

















>>> def 


example3(): 


try 


renee N/A' ) 
except ValueError 


raise RuntimeError 


('A parsing error occurred') from None... 


>>> example3() 

Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 5, in example3 

RuntimeError: A parsing error occurred 

>>> 





14.9.3 pir 





在 设计 代码 的 时 候 ， 对 于 在 except 块 中 使 用 
raise 语 句 的 情况 ， 大 家 应 该 特别 小 心 。 大 部 分 情况 
下 ， 这 种 raise 语 句 都 应 该 改 为 raise from. thigtze 
说 ， 我 们 应 该 采用 下 面 这 种 风格 : 





except 


SomeException as 


e: 
raise 


DifferentException() from e 





这 么 做 的 原因 在 于 我 们 需要 显 式 将 寞 单产 生 的 
原因 串联 起 来 。 也 就 是 说 ，Different Exception 是 直 
接 响 应 SomeException。 这 两 个 异常 间 的 关系 会 在 
traceback 回 调 中 显 式 给 出 。 


如 末末 用 下 面 这 种 风格 ， 还 是 可 以 得 到 腊 和 党 
链 。 但 是 通常 这 么 做 不 能 明确 表达 出 异 津 链 是 程序 
员 有 意 为 之 ， 还 是 由 于 无 法 预见 的 编程 错误 而 产生 
的 : 








except 
SomeException: 


raise 


DifferentException( ) 





当 使 用 raise fromiB AJAY, ait ma H MRIS LH PKs 





望 引发 第 二 个 异常 的 意图 。 


最 好 不 要 像 最 后 那个 例子 中 那样 抑制 异常 信 
息 。 尺 管 这 么 做 产生 的 traceback 回 洲 会 比较 短小 ， 
但 同时 也 丢弃 了 对 调试 而 言 很 有 用 的 信息 。 任 何事 
情 没 有 绝对 之 分 ， 通 第 最 好 还 是 尽 可 能 多 地 保留 调 
试 信息 为 好 。 





14.10 ”重新 抛 出 上 一 个 异 各 
14.10.1 问题 


我 们 在 except 块 中 捕获 了 一 个 异常 ， 现 在 想 将 
它 重新 抛 出 。 


14.10.2 解决 方案 


只 需要 单独 使 用 raise 语 句 即 可 。 示 例如 下 : 





>>> def 


example(): 
Ris try 


int('N/A') 
a except ValueError 


print 


("Didn't work") 
dan raise 


>>> example( ) 
Didn't work 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 3, in example 
ValueError: invalid literal for int() with base 10: 'N/A' 
>>> 





14.10.33 ”讨论 


LOS E eR AS H ITE its EET RS ABLE Md Jv 





《比如 记录 日 志 、 完 成 清理 工作 等 ) ， 但 之 后 希望 





将 开间 再 传播 出 去 时 。 一 个 非 营 利 见 的 用 途 惑 是 用 
FER IRA A oe Ps AAD A : 





except Exception as 


# Process exception information in some way 


# Propagate the exception 


raise 


1411 发 出 告警 信息 


14.11.1 问题 
我 们 想 让 自己 的 程序 能 够 发 出 告警 信息 〈 例 


如 ， 对 废弃 的 功能 或 者 使 用 上 的 问题 进行 告警 提 
2 


14.11.2 解决 方案 


要 让 程序 产生 告警 信息 ， 可 以 使 用 
warnings.Warn(0 〇 函数 。 示 例如 下 : 





import warnings 


def 


func(x, y, logfile=None, debug=False): 
if 


logfile is not 


None: 
warnings.warn('logfile argument deprecated', Deprecatio 








war0 函 数 的 参数 是 一 条 告警 信息 附带 一 个 千 








警 闫 别 ， 通 前头 别 为 UserWarning、 
DeprecationWarning、 SyntaxWarning、 
RuntimeWarning、ResourceWarning 或 者 
FutureWarning 中 的 一 种 。 








对 告警 信息 的 处 理 取决 于 如 何 执 行 解释 器 以 及 
其 他 的 相关 配置 。 例 如 ， 如 果 用 -W all 选 项 来 运行 
Python 解释 右 ， 则 会 得 到 如 下 的 输出 : 





bash % python3 -W all example. py 
example.py:5: DeprecationWarning: logfile argument is deprecated 
warnings.warn('logfile argument is deprecated', DeprecationWwar 





一 般 来 说 ， 告 警 信 息 只 会 发 送 到 标准 错误 输出 
上 上 。 如 果 想 把 告警 转换 为 异常 ， 可 以 使 用 -W error 
选项 : 





bash % python3 -W error example.py 
Traceback (most recent call last): 
File "example.py", line 10, in <module> 


func(2, 3, logfile='log.txt') 
File "example.py", line 5, in func 
warnings.warn('logfile argument is deprecated', DeprecationwW 





DeprecationWarning: logfile argument is deprecated 
bash % 


14.11.33 讨论 


为 了 维护 软件 以 及 帮助 用 户 更 好 地 使 用 软件 ， 
eee eee ee 这 么 做 可 以 
让 那些 没 必要 上 升 到 异常 层面 的 问题 以 告警 信息 的 
形式 表达 出 来 。 比 如 说 ， 如 果 打算 修改 某 个 库 或 才 
框架 的 行为 ， 可 以 针对 打算 修改 的 部 分 局 用 告警 信 
轧 ， 同 时 在 一 段 时 间 内 仍然 提供 癌 后 兼容 性 。 也 可 
以 提醒 用 户 有 关 用 法 方面 的 问题 。 


在 内 建 的 warning 库 中 还 有 另 一 个 关于 告警 应 
用 的 示例 。 下 面 的 例子 用 业 说 明 当 未 关闭 文人 对象 
了 怠 打 算 将 其 销毁 时 所 产生 的 告警 信 


>>> import warnings 









































>>> warnings.simplefilter('always' ) 


>>> f = open('/etc/passwd' ) 
>>> del 


f 

__main__:1: ResourceWarning: unclosed file <_io.TextIOWrapper na 
mode='r' encoding='UTF-8'> 

>>> 





默认 情况 下 ， 并 非 所 有 的 告警 信息 都 会 显示 出 
来 。-W 选 项 能 够 控制 告警 信息 的 输出 。-Ww al 将 会 
输出 所 有 的 告警 信息 ， 而 -W ignore 选 项 会 忽略 所 有 
的 告警 ，-W error 会 将 告警 转换 为 异 浊 。 男 外 一 种 
蔡 代 方案 就 是 使 用 warnings.simplefilter0O 函 数 来 控制 
输出 ， 上 面 的 示例 采用 的 正 是 这 个 方法 。 参 
数 “alwavys” 使 得 所 有 的 告警 信息 都 会 显示 ， 
而 *ignore” 则 表示 忽略 所 有 的 告警 , “error" 则 会 把 告 
TEE BON FA o 
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产生 告警 信息 的 知识 。warnings 模 块 提 供 了 许多 与 
言 轧 过 滤 以 及 处 理 告警 信息 相关 的 高 级 配置 选项 。 
更 多 信息 可 参阅 Python 文档 
Chttp://docs.python.org/3/library/warnings.html ) 。 



























































14.12 ”对 基本 的 程序 骨 演 问题 进行 
调试 


14.12.1 问题 


我 们 的 程序 项 溃 了 ， 我 们 希望 通过 一 些 简单 的 
策略 来 调试 它 。 


14.12.2 ”解决 方案 


如 果 程 序 由 于 产生 寞 和 党 而 有 崩 江 了， 可 以 通过 
python3 -i someprogram.py 的 方式 来 运行 程序 。 这 人 么 
做 可 以 简单 地 查看 产生 问题 的 原因 。 一 旦 程序 终 
止 ，-i 选 项 束 会 开局 一 个 交互 式 shell， 这 里 就 可 以 
对 程序 运行 的 环境 做 一 番 探 究 了 。 例 如 ， 假 设 有 如 
下 的 代码 : 














# sample.py 


def 


func(n): 
return 


n + 10 


func('Hello' ) 





通过 python3 -i 来 运行 程序 会 产生 下 列 输出 : 


bash % python3 -i sample.py 
Traceback (most recent call last): 
File "sample.py", line 6, in <module> 
func('Hello' ) 
File "sample.py", line 4, in func 
return 


n + 10 
TypeError: Can't convert 'int' object to str implicitly 
>>> func(10) 





如 果 这 么 做 还 看 不 出 什么 明显 的 问题 ， 那 么 在 
程序 有 骨 尝 之 后 还 可 以 加 载 Python 调 试 器 来 助阵 。 示 
例如 下 : 





>>> import pdb 


>>> pdb.pm() 

> sample.py(4)func() 
-> return n + 10 
(Pdb) w 


sample.py(6)<module>() 
-> func('Hello') 

> sample.py(4)func() 
-> return n + 10 

(Pdb) print n 

"Hello' 

(Pdb) q 

>>> 





如 果 我 们 的 代码 深 埋 在 一 个 难以 获取 交互 式 
shell 的 环境 中 (比如 在 服务 右 中 ) ， 通 党 可 以 捕获 
音 误 并 自己 生成 traceback 回 斋 。 示 例如 下 : 





import traceback 


import sys 


func(arg) 
except 


print 


('**** AN ERROR OCCURRED ****') 
traceback.print_exc(file=sys.stderr) 


如 果 程 序 并 没有 骨 尝 只 是 产生 错误 的 结果 ， 叉 
或 者 我 们 只 是 想 了 解 程序 究竟 是 如 何 工 作 的 ， 
在 代码 中 感 兴 趣 的 位 置 上 插入 一 些 printO 调 用 是 
全 合理 的 。 但 是 ， 如 果真 的 打算 这 么 做 ， 这 里 有 一 
些 我 们 可 能 会 感 兴趣 的 相关 技术 。 首 先 ，traceback. 
print_stack0) 函 数 会 在 程序 调用 它 的 地 方 立 刻 打印 出 
调用 栈 的 信息 。 示 例如 下 : 

















>>> def 


sample(n): 
aac if 


eek 1) 
else 


traceback.print_stack(file=sys.stderr ) 


>>> sample(5) 
File "<stdin>", line 1, in <module> 
File "<stdin>", line 3, in sample 


File "<stdin>", line 3, in sample 

File "<stdin>", line 3, in sample 

File "<stdin>", line 3, in sample 

File "<stdin>", line 3, in sample 

File "<stdin>", line 5, in sample 
>>> 








作为 替代 方案 ， 也 可 以 在 程序 的 任意 位 置 通过 
调用 pdb.set_trace0 来 手动 加 载 调试 器 ; 


import pdb 


def 


func(arg): 


pdb.set_trace() 





这 对 于 研究 大 型 程序 的 内 部 原理 、 了 解 程 序 的 
控制 流 或 者 函数 参数 部 是 非常 有 用 的 拉 术 。 例 如 ， 
一 旦 局 动 了 调试 占 ， 束 可 以 通过 print 来 观察 变量 ， 
或 者 输入 命令 比如 w 来 获取 栈 回溯 信息 。 








14.123 讨论 





不 要 把 调试 弄 的 过 于 复杂 。 简 单 的 错误 常常 可 
以 通过 阅读 程序 的 traceback 回 济 来 解决 (实际 错误 
通常 是 traceback 的 最 后 一 行 )。 如 果 你 正 处 于 开发 
过 程 中 ， 而 你 只 是 想 获 得 一 些 诊断 信息 ， 那 么 在 代 
人 码 中 插入 一 些 print(0) 函 数 也 能 很 好 的 完成 任务 (只 
是 稍 后 要 记得 将 这 些 打 印 语句 去 挤 ) 。 


调试 右 的 常见 用 途 就 是 对 已 经 朋 尝 的 函数 中 的 
变量 进行 检 僵 。 知 道 如 何在 程序 朋 尝 之 后 进入 调试 
名 是 一 项 有 用 的 技能 。 


如 果 要 研究 一 个 特别 复杂 的 程序 ， 其 抵 层 的 控 
制 流 并 不 明显 ， 那 么 插入 像 pdb.set_trace() 这 样 的 语 
句 也 是 十 分 有 帮助 的 。 从 本 质 上 说 ， 程 序 会 一 直 运 
行 ， 直 到 过 到 set_trace() 调 用 为 止 ， 此 时 会 立刻 进入 
调试 器 。 这 之 后 束 可 以 好 好 利用 调试 右 的 功能 


如 果 使 用 IDE 来 做 Python 开发 ， 一 般 来 说 IDE 都 
会 提供 自己 的 调试 接口 。 调 试 接口 要 么 是 构建 在 
pdb 之 上 的 ， 要 么 孢 取代 了 pdb。 可 以 参考 你 的 IDE 
手册 以 获得 更 多 的 信息 。 























14.13 ”对 程序 做 性 能 分 析 以 及 计时 
统计 
14.13.1 问题 


我 们 想 知 道 程序 在 运行 时 把 时 间 都 花 在 了 哪些 
地 方 ， 并 且 想 对 运行 时 间 做 计时 统计 。 


14.13.2 解决 方案 


如 果 只 是 想 简 单 地 对 整个 程序 做 计时 统计 ， 通 
第 使 用 UNIX 下 的 time 命 令 束 足够 了 。 示 例如 下 : 





bash % time python3 someprogram.py 
real 0m13.937s 
user 0m12.162s 


sys  @m0.098s 


bash % 








FRA FIT it WOR AL EDT RE PAT A 
产生 一 份 详细 的 报告 ， 那 么 可 以 使 用 cProfile 模 块 : 
bash % python3 -m cProfile someprogram.py 

859647 function calls in 16.016 CPU seconds 


Ordered by: standard name 


tottime percall cumtime percall filename: 1lineno(functi 
someprogram.py:16(fran 
someprogram.py:30(gene 
someprogram. py: 32(<gen 
someprogram. py: 4(<mod 
someprogram.py:4(in_ma 
os. py: 746(urandom) 


png.py:1056(_readable) 
png. py:1073(Reader ) 
png. py:163(<module>) 
png.py:200(group) 





对 代码 做 性 能 分 析 ， 更 常见 的 情况 则 处 于 上 述 
两 个 极端 情况 之 间 。 比 如 ， 我 们 可 能 已 经 知道 了 代 
码 把 大 部 分 运行 时 间 都 花 在 某 几 个 函数 上 了 。 要 对 
妆 数 进行 性 能 分 析 ， 使 用 装饰 右 束 能 办 到 。 示 例如 
下 : 





# timethis.py 


import time 


from functools import 


wraps 


def 


timethis(func): 
@wraps(func) 
def 


wrapper(*args, **kwargs): 
start = time.perf_counter( ) 
r = func(*args, **kwargs) 
end = time.perf_counter() 
print 


('{}.{} : {}'.format(func. module , func.__name__, end - 
return 
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定义 之 前 ， 就 能 得 到 对 应 函数 的 计时 信息 了 。 示 例 
如 下 : 





>>> @timethis 
. def 


countdown(n): 
while 


>>> countdown( 10000000 ) 
__main__.countdown : 0.803001880645752 
>>> 





要 对 语句 块 进行 计时 统计 ， 可 以 定义 一 个 上 下 
文 管理 器 来 实现 。 示 例如 下 : 





from contextlib import 


contextmanager 
@contextmanager 


def 


timeblock(label): 
start = time.perf_counter() 
try 


yield 


finally 


end = time.perf_counter( ) 


print 


('{} : {}'.format(label, end - start)) 





k 下 面 的 例子 省 示 了 这 个 上 下 文 管理 右 是 如 何 工 
作 的 : 


>>> with 


timeblock('counting'): 


n = 10000000 


counting : 1.5551159381866455 
>>> 





如 果 要 对 短小 的 代码 厂 段 做 性 能 统计 ，timeit 
模块 会 很 有 帮助 。 示 例如 下 : 


>>> from timeit import 


timeit 

>>> timeit('math.sqrt(2)', ‘import math' ) 
0.1432319980012835 

>>> timeit('sqrt(2)', 'from math import sqrt') 
0.10836604500218527 

>>> 





timeit 会 执行 第 一 个 参数 中 指定 的 语句 一 白 万 
次 ， 然 后 计算 时 间 。 第 二 个 参数 是 一 个 配置 字符 
串 ， 在 运行 测试 之 前 会 完 执行 以 设 定好 环境 。 如 来 
需要 修改 迭代 的 次 数 ， 只 需要 提供 一 个 number 参 数 
即 可 。 示 例如 下 : 


>>> timeit('math.sqrt(2)', "import math', number=10000000) 
1.434852126003534 

>>> timeit('sgqrt(2)', 'from math import sqrt', number=10000000) 
1.0270336690009572 








>>> 





14.13.33 ”讨论 


请 注意 ， 在 进行 性 能 统计 时 ， 任 何 得 到 的 结 
都 是 近似 值 。 解 决 方案 中 使 用 的 函数 
time.perf_counter() 能 够 提供 给 定 平 台 上 精度 最 高 的 
计时 器 。 但 是 ， 它 计算 的 仍然 是 场 上 时 间 (wall- 


clock time) ， 这 会 受到 许多 不 同 因素 的 影响 ， 例 如 
机 堪 当 前 的 负载 。 


如 末 相 对 于 场 上 时 间 ， 我 们 更 感 兴趣 的 是 进程 
时 间 ， 那 么 可 以 使 用 time.process_time() 来 蔡 代 。 示 
例如 下 : 





from functools import 


wraps 
def 


timethis(func): 
@wraps(func) 
def 


wrapper(*args, **kwargs): 
start = time.process_time() 
r = func(*args, **kwargs) 
end = time.process_time() 
print 


('{}.{} : {}'.format(func. module , func.__name__, end - 
return 


return 








最 后 但 同样 重要 的 是 ， 如 果 打 算 进 行 详 细 的 计 
时 统计 分 析 ， 请 确保 先 阅 读 time、timeit 以 及 其 他 相 
天 模块 的 文档 。 这 样 才能 理解 不 同系 统 平台 之 间 的 
重要 差异 以 及 其 他 一 些 缺 陷 。 








本 书 13.13 节 也 介绍 了 一 个 相关 的 主题 ， 即 创建 
一 个 秒表 定时 器 。 


14.14 让 你 的 程序 运行 得 更 快 
14.14.1 问题 

我 们 的 程序 运行 得 太 慢 了 ， 我 们 想 让 它 提速 ， 
但 不 使 用 那些 极端 的 解决 方案 ， 比 如 C 扩 展 或 IT 编 


译 器 。 





14.14.2 解决 方案 


尽管 关于 优化 的 第 一 原则 也 许 是 “不 优化 ”， 但 
第 二 原则 几乎 肯定 是 “不 要 优化 那些 不 重要 的 部 
分 ”。 基 于 这 两 个 原则 ， 如 果 我 们 的 程序 运行 的 很 
慢 ， 应 该 采用 14.13 节 中 讨论 的 方法 开始 对 代码 进行 
性 能 分 析 。 

多 半 时 候 我 们 都 会 发 现 程 序 把 大 量 的 时 间 花 在 
了 几 个 “热点 ”(hotspot) 上 ， 比 如 处 理 数据 时 的 内 
层 循 环 。 一 旦 确认 了 这 些 “ 热 点 >， 就 可 以 使 用 以 下 
各 小 节 中 介绍 的 技术 让 程序 运行 得 更 快 。 
使 用 函数 

有 很 多 程序 员 开 始 使 用 Python 时 都 用 它 来 编写 





一 些 简 单 的 脚本 。 当 编写 脚本 时 ， 很 容易 陷入 只 宣 
编写 代码 而 不 重视 程序 结构 的 怪圈 。 例 如 : 


# somescript.py 


import sys 


import csv 


with 


open(sys.argv[1]) as 


csv.reader(f): 
# Some kind of processing 














一 个 鲜 为 人 知 的 事实 是 ， 像 上 面 这 样 定 义 在 全 
局 范围 内 的 代码 运行 起 来 比 定义 在 函数 中 的 代码 要 
慢 。 速 度 的 看 寞 与 局 部 变量 和 全 局 变量 的 实现 机 制 
有 关 〈 涉 及 局 部 变量 的 操作 要 更 快 )。 因 此 ， 如 果 
想 让 程序 运行 得 更 快 ， 只 要 将 脚本 中 的 语句 放 入 一 
个 函数 中 即 可 : 














# somescript.py 


import sys 


import csv 


def 


main(filename): 
with 


open(filename) as 


f: 
for 


row in 


csv.reader (f): 
# Some kind of processing 


main(sys.argv[1]) 





运行 速度 的 差异 与 所 执行 的 处 理 有 很 大 关系 ， 
但 根据 我 们 的 经 验 ， 提 升 15% 一 30% 的 情况 并 非 罕 
见 。 


有 选择 性 的 消除 属性 访问 





每 次 使 用 句点 操作 符 O 来 访问 属性 时 都 会 带 
来 开销 。 在 压 屋 ， 这 会 触发 调用 特殊 方法 ， 比 如 
getattribute 0 和 getattr 0， 而 调用 这 些 方法 常常 会 
导致 做 字典 簿 询 操作 。 











通常 可 以 通过 from module import name 的 导入 
形式 以 及 选择 性 地 使 用 绑 定 方法 (bound method) 
来 避免 出 现 属 性 得 询 操作 。 为 了 说 明 清楚 ， 考 虑 下 
面 的 代码 厂 段 : 








import math 


compute_roots(nums): 


result = [] 
for 
n in 
nums : 
result.append(math.sqrt(n) ) 
return 
result 
# Test 


nums = range(1000000) 
for 


range(100): 
r = compute_roots(nums) 





当 在 我 们 的 机 器 上 测试 时 ， 这 个 程序 运行 了 大 
约 40 秒 。 现 在 将 compute_roots0 函 数 修改 为 如 下 形 
sk: 


from math import 


compute_roots(nums): 


result = [] 

result_append = result.append 
for 

n in 


nums: 
result_append(sqrt(n) ) 
return 


result 





这 个 版 本 的 运行 时 间 大 约 是 29 秒 。 两 个 版 本 间 
的 唯一 区 别 就 在 属性 访问 上 ， 第 三 个 版 本 消除 了 对 
属性 的 访问 。 与 其 使 用 math.sqgrt()， 现 在 代码 可 直 
接 使 用 sqrt()。 此 外 ，result.append0) 方 法 现在 被 放置 





在 一 个 局 部 变量 result_append 中 ， 然 后 再 在 内 层 循 
环 中 重复 使 用 它 。 


但 是 ， 必 须要 强调 的 是 ， 只 有 在 频繁 执行 的 代 
码 中 做 这 些 修 改 才 有 意义 ， 比 如 在 循环 中 。 因 此 ， 
这 种 优化 技术 适用 的 场景 需要 经 过 仔细 挑选 。 








理解 变量 所 处 的 位 置 


前 面 已 经 说 过 了 ， 访 问 局 部 变量 比 全 局 变量 要 
更 快 。 对 于 需要 频 素 访问 的 名 称 ， 想 提高 运行 速 
度 ， 可 以 通过 让 这 些 名 称 尽 可 能 成 为 局 部 变量 来 达 
成 。 例 如 ， 考 处 下面 这 个 修改 过 的 compute_roots() 
PK ŽI: 

















import math 


def 


compute_roots(nums): 
sqrt = math.sqrt 
result = [] 
result_append = result.append 
for 


nums: 


result_append(sqrt(n) ) 
return 


result 





在 这 个 版 本 中 ，sqrt 方 法 已 经 从 math 模 块 中 提 








取出 来 并 放置 在 一 个 局 部 变量 中 。 如 条 运行 这 份 代 
人 码 ， 现 在 的 运行 时 间 大 约 是 25 秒 《〈 比 上 一 个 版 本 的 
29 秒 又 有 所 提升 ) 。 这 次 提升 焉 是 因为 查找 局 部 变 
量 sqrt 比 在 全 局 范围 内 碍 找 sqrt 要 更 快 。 


当 使 用 类 的 时 候 ， 局 部 参数 同样 能 起 到 提速 的 
效果 。 一 般 来 说 ， 碍 找 像 self.name 这 样 的 值 会 比 访 
问 一 个 局 部 变量 要 慢 很 多 。 在 内 层 循环 中 将 需要 经 
第 访问 的 属性 移 到 局 部 变量 中 来 会 很 划算 。 示 例如 
P: 


























# Slower 


class SomeClass 


def 


method(self): 
for 


op(self.value) 


class SomeClass 


def 


method(self): 
value = self.value 
for 


op(value) 





避免 不 必要 的 抽象 


任何 时 候 当 使 用 额外 的 处 理 层 比如 闭 饰 器 
(decorator) 、 属 性 (property) 或 者 描述 符 





(descriptor) 来 包装 代码 时 ， 代 码 的 运行 速度 束 会 
变 慢 。 作 为 示例 ， 参 考 下 面 这 个 类 : 





class A 


def 


__init__(self, x, y): 


self.x 

self.y 
@property 
def 


x 


y(self): 
return 


self._y 
@y.setter 
def 


y(self, value): 
self._y = value 








现在 做 一 个 简单 的 计时 测试 : 
>>> from timeit import 


timeit 

>>> a = Al 1,2) 

>>> timeit('a.x', 'from __main__ import a') 
0.07817923510447145 


>>> timeit('a.y', 'from __main__ import a') 
0.35766440676525235 
>>> 





可 以 看 到 ， 访 问 property 属 性 y 比 访问 普通 的 属 
性 x 慢 了 不 正 一 点 ， 而 是 大 约 慢 了 4.5 倍 。 如 果 这 种 
和 差异 对 你 而 言 很 重要 ， 你 应 该 问 问 目 己 是 否 真 的 有 





必要 将 y 定 义 为 property 属 性 。 如 果 不 是 ， 那 么 去 把 
property 重 新 用 普通 的 属性 来 普 代 即 可 。 不 能 仅仅 

因为 在 其 他 的 编程 语言 中 使 用 getter/setter 函 数 非常 
— 就 错误 地 把 这 种 编程 风格 应 用 到 Python 上 


使 用 内 建 的 容器 


内 建 的 数据 类 型 比如 字符 串 、 元 组 、 列 表 、 集 
合 以 及 字典 部 是 用 C 语 言 实现 的 ， 速 度 非常 快 。 如 
果 倾 加 于 构建 自己 的 数据 结构 作为 丛 代 例如 ， 链 
表 、 平 衡 二 又 树 等 ) ， 想 在 速度 上 和 内 建 的 数据 结 
构 相 抗衡 即使 并 非 不 可 能 也 绝对 会 相当 困难 。 
此 ， 通 种 最 好 还 是 下 接 使 用 内 建 的 数据 结构 。 


避免 产生 不 必要 的 数据 结构 或 者 找 贝 动作 
有 时 候 程序 员 会 在 不 必要 的 情况 下 志和 卑 所 以 地 


创建 一 些 不 必要 的 数据 结构 。 例 如 ， 有 的 人 可 能 会 
编写 出 如 下 的 代码 : 




















values = [x for 


x in 


sequence | 
squares = [x*x for 


x in 


values] 











也 许 这 里 的 想法 是 先 将 一 些 值 收 集 到 一 个 列表 
中 ， 然 后 再 对 列表 进行 操作 ， 比 如 列表 推导 。 但 
是 ， 这 里 的 第 一 个 列表 完全 是 没有 必要 的 。 只 要 把 
代码 写成 这 样 ” 即 可 : 








squares = [x*x for 


in 


sequence] 








与 此 相关 的 是 ， 那 些 对 Python 中 共享 值 的 行为 
过 于 偏执 的 程序 员 ， 他 们 编写 的 代码 需要 好 好 检查 
一 番 。 过 度 使 用 像 copy.deepcopy0O 这 样 的 函数 就 是 
一 个 信号 ， 这 表示 代码 的 编写 者 不 完全 理解 或 者 说 
信赖 Python 的 内 存 模型 。 在 这 样 的 代码 中 消除 那些 
不 必要 的 找 贝 应 该 十 安全 的 。 








14.14.3 ”讨论 





在 进行 优化 之 前 ， 首 先 分 析 一 下 正在 使 用 的 算 
法 通常 都 是 很 值得 的 。 把 算法 的 复杂 度 切 换 为 
O(nlgn) 所 市 来 的 性 能 提升 绝对 比 费 力 调整 一 个 
O(n**2) 的 实现 要 高 ”得 多 。 


如 果 仍 然 决 定 必须 优化 ， 那 么 束 从 大 的 方 回 考 
谍 。 一 般 来 说 ， 我 们 不 会 针对 程序 的 每 个 部 分 痢 去 
优化 ， 因 为 这 样 的 修改 会 使 得 代码 难以 阅读 和 理 
o 只 针对 已 知 的 性 能 瓶颈 做 修改 ， 比 如 央 
FEW 


我 们 需要 特别 留意 微 优化 (micro- 
optimization) 所 市 来 的 结果 。 比 如 ， 考 虑 下 面 这 两 
种 创建 字典 的 方法 : 


a={ 
'name' : 'AAPL', 
'shares' : 100, 
'price' : 534.22 











} 


b = dict(name='AAPL', shares=100, price=534.22) 





后 一 种 方法 的 好 处 在 于 不 需要 输入 那么 多 字符 
(不 需要 将 键 名 括 起 来 ) 。 但 是 ， 如 果 对 上 述 两 个 
代码 片段 做 一 个 性 能 测试 对 比 ， 就 会 发 现 使 用 dict0) 
的 版 本 要 慢 3 倍 ! 有 了 这 种 认识 之 后 ， 我 们 可 能 会 
倾向 于 将 自己 的 代码 扫 朱 一遍， 把 每 个 用 到 dictO 的 














地 方 都 用 更 加 见长 的 方法 垩 换 挥 。 但 是 ， 联 明 的 程 
序 员 只 会 把 精力 集中 在 程序 中 实际 会 产生 性 能 影响 
的 地 方 ， 比 如 内 层 循环 。 而 其 他 地 方 的 速度 差异 根 
本 就 是 无 天 案 要 的 。 


夯 一 方面 ， 如 末 我 们 对 性 能 提升 的 要 求 已 经 远 
远 超 出 了 本 节 所 讨论 的 这 几 种 简单 技术 ， 那 残 需要 
考虑 使 用 基于 即时 编译 (just-in-time compilation ) 
技术 的 工具 了 。 例 如 ，PyPy 项 目 (http://pypy.org 
) 就 是 对 Python 解释 器 的 重新 实现 ， 可 以 分 析 你 的 
程序 并 针对 频繁 执行 的 部 分 生成 原始 机 器 人 码 。 有 时 
候 能 使 Python 程序 的 运行 速度 快 上 一 个 数量 级 ， 第 
第 能 接近 《甚至 超越 ) C 代 码 的 执行 速度 。 不 泣 的 
是 ， 在 写作 本 书 时 PyPy 还 没 能 完全 支持 Python 3。 
因此 ， 这 是 未 来 需要 关注 的 问题 。 此 外 也 可 以 考虑 
Numba™ H (http://numba.pydata.org ) > Numba% 
NAS Sa PERS. RATE Wie E Fe 22 1010 H Python 
PRIA, ZA JS FR RAB ORAS TH. XE PR ACH an 
LLVM (http://Ilvm.org ) 编译 成 原始 的 机 器 码 。 这 
种 方法 同样 能 够 获得 显著 的 性 能 提升 。 但 是 和 PyPy 
一 样 ，Numba 对 Python 3 的 文 持 应 该 还 只 能 看 做 是 
试验 阶段 。 


最 后 但 同样 重要 的 是 ， 请 牢记 John 
Ousterhout (TclMTKk 语 言 发 明 者 ) 的 名 言 : 最 好 的 性 
能 提升 束 是 从 不 能 工作 转变 为 可 以 工作 。 (The 


























best performance improvement is the transition from 
the nonworking to the working state.) 在 确实 需要 优 
化 之 前 别 担 心 这 个 问题 。 确 保 让 程序 能 够 正常 工作 
总 是 比 让 它 运 行 的 更 快要 更 加 重要 《人 至少 在 最 初 阶 
段 是 如 此 ) 。 











第 15 章 CERTE 


本 章 将 讨论 从 Python 中 访问 C 代 码 的 问题 。 许 
多 Python 的 内 建 库 都 是 用 C 语 言 编写 的 ， 能 够 访问 C 
代码 对 于 让 Python 同 现 有 的 库 进 行 交 互 是 十 分 重要 
的 一 环 。 此 外 ， 如 果 我 们 面临 着 将 扩展 代码 从 
Python 2 移植 到 Python 3 中 ， 那 么 这 也 是 需要 重点 学 
习 的 部 分 。 














尽管 Python 提供 了 广泛 的 C 语 言 编 程 API， 但 实 
际 上 有 着 多 种 不 同 的 方法 来 应 对 C 人 代码。 与 其 针对 
每 个 可 能 的 工具 和 技术 都 给 出 详尽 的 参考 ， 我 们 采 
用 的 方法 是 把 重点 放 在 小 段 的 C 代 码 上 ， 用 有 代表 
性 的 示例 来 展示 如 何 同 C 代 码 交 互 。 目 的 是 提供 一 
有 经 验 的 程序 员 可 以 展开 后 供 自 
己 使 用 。 


以 下 就 是 我 们 在 后 续 大 部 分 昔 记 中 需要 打交道 
HICA: 
































/* sample.c */ 


_method 
#include <math.h> 


/* Compute the greatest common divisor */ 


int 


gcd(int 


< kK © 

I 1 al 
< 

p P . 
= 


g; 
} 


/* Test if (x0,y0) is in the Mandelbrot set or not */ 


int 


in_mandel(double 


x0, double 


yO, int 


n) { 
double 


x=0, y=0, xtemp; 
while 


(n > 0) { 
xtemp = x*x - y*y + x0; 
y = 2*x*y + yo; 
x = xtemp; 
n -= 1; 
if 


(x*x + y*y > 4) return 


0; 
I 


return 
1; 
} 


/* Divide two numbers */ 


int 


divide(int 


*remainder) { 


int 


quot = a / b; 
*remainder = a % b; 
return 


quot; 
} 


/* Average values in an array */ 


double 


avg (double 


i; 
double 


total = 0.0; 
for 


(i = 0; i< n; i++) { 
total += a[i]; 


} 


return 


total / n; 
} 


/* A C data structure */ 


typedef struct 


Point { 
double 


/* Function involving a C data structure */ 


double 


distance(Point *p1, Point *p2) { 
return 


hypot(p1->x - p2->x, pi->y - p2->y); 
} 








这 份 代码 包含 了 大 量 C 编 程 中 用 到 的 不 同 特 
性 。 首 先 ， 有 一 些 简单 的 函数 如 gcdO 和 
is_mandel0。 而 divideO0 则 是 C 函 数 中 返回 多 个 值 的 





一 个 例子 ， 其 中 一 个 值 是 通过 指针 参数 返回 的 。 
avg() 函 数 过 历 了 C 数 组 并 做 了 数据 转换 。Point 和 
distance() 函 数 涉 及 了 C 结 构 体 。 


后 面 所 有 的 小 节 都 假设 前 面 这 些 C 代 码 保存 在 


名 为 sample.c 的 文件 中 ， 声 明 可 以 在 sample.h 中 找 
链接 到 其 他 的 C 代 码 中 。 编 译 和 链接 的 具体 细节 在 
不 同 的 系统 之 间 有 所 区 别 ， 但 这 不 是 我 们 主要 关注 
的 问题 。 我 们 假设 如 果 你 正在 同 C 代 码 打 交道 ， 则 
你 已 经 7 了解 了 这 些 知 识 。 








15.1 利用 ctypes 来 访问 C 代 码 
15.1.1 问题 


我 们 有 一 些 C 函 数 已 经 被 编译 为 共享 库 或 者 
DLL 了 。 我 们 想 从 纯 Python 代 码 中 直接 调用 这 些 函 
数 ， 而 不 必 额 外 编写 C 代 码 或 者 使 用 第 三 方 的 扩展 
nel 








15.1.2 解决 方案 


对 于 用 C 语 言 编写 的 小 程序 ， 使 用 Python 标 准 
库 中 的 ctypes 模 块 来 访问 通常 是 非常 容易 的 。 要 使 
用 ctypes， 必 须 首 先 确保 想 要 访问 的 C 代 码 已 经 被 编 
译 为 与 Python 解释 堪 相 兼容 〈 即 ， 采 用 同样 的 体系 
结构 、 字 长 、 编 译 器 等 ) 的 共享 库 了 。 对 于 本 小 节 
来 说 ， 假 设 已 经 创建 了 共享 库 libsample.so， 其 中 包 
含 了 本 章 介 绍 中 所 示 的 那些 代码 。 我 们 进一步 假设 
文件 libsample.so 与 接 下 来 展示 的 sample.py 放 置 在 同 
一 个 目录 中 了 。 


要 访问 这 个 共享 库 A3 要 创建 一 个 Python 模块 
来 包装 它 ， 示 例如 下 : 














# sample.py 


import ctypes 


import os 


# Try to locate the .so file in the same directory as this file 


_file 'libsample.so' 
_path os.path.join(*(os.path.split(__file__)[:-1] + (_file,))) 
_mod = ctypes.cdll.LoadLibrary(_path) 


# int gcd(int, int) 


gcd = _mod.gcd 
gcd.argtypes = (ctypes.c_int, ctypes.c_int) 
gcd.restype = ctypes.c_int 


# int in_mandel(double, double, int) 


in_mandel = _mod.in_mandel 
in_mandel.argtypes = (ctypes.c_double, ctypes.c_double, ctypes.c 
in_mandel.restype = ctypes.c_int 


# int divide(int, int, int *) 





_divide = _mod.divide 
_divide.argtypes = (ctypes.c_int, ctypes.c_int, ctypes.POINTER(c 
_divide.restype = ctypes.c_int 


def 


divide(x, y): 
rem = ctypes.c_int() 
quot = _divide(x, y, rem) 
return 


quot, rem.value 


# void avg(double *, int n) 


# Define a special type for the 'double *' argument 


class DoubleArrayType 


def 


from_param(self, param): 
typename = type(param).__name__ 
if 


hasattr(self, 'from_' + typename): 
return 


getattr(self, 'from_' + typename) (param) 
elif 


isinstance(param, ctypes.Array): 
return 


param 


else 


raise TypeError 


("Can't convert %s" % typename) 


# Cast from array.array objects 


def 


from_array(self, param): 
if 


param.typecode != 'd': 
raise TypeError 


('must be an array of doubles' ) 
ptr, _ = param.buffer_info() 
return 


ctypes.cast(ptr, ctypes.POINTER(ctypes.c_double) ) 


# Cast from lists/tuples 


def 


from_list(self, param): 
val = ((ctypes.c_double)*len(param) )(*param) 
return 


val 


from_tuple = from_list 


# Cast from a numpy array 


def 


from_ndarray(self, param): 

return 
param.ctypes.data_as(ctypes.POINTER(ctypes.c_double) ) 
DoubleArray = DoubleArrayType( ) 
_avg = _mod.avg 
_avg.argtypes = (DoubleArray, ctypes.c_int) 
_avg.restype = ctypes.c_double 
def 
avg(values): 

return 


_avg(values, len(values) ) 


# struct Point { } 


class Point 


(ctypes.Structure): 
_fields_ = [('x', ctypes.c_double), 
('y', ctypes.c_double) ] 


# double distance(Point *, Point *) 


distance = _mod.distance 


distance.argtypes = (ctypes.POINTER(Point), ctypes.POINTER(Point 
distance.restype = ctypes.c_double 





如 果 一 切 顺 利 ， 现 在 应 该 可 以 加 载 这 个 模块 并 
使 用 相应 的 C 函 数 了 。 例 如 : 


>>> import 


sample. 
sample. 
sample. 


sample. 


2) 


sample. 


sample 


gcd(35, 42) 
in_mandel(0,0,500) 
in_mandel(2.0,1.0,500) 
divide( 42,8) 


avg([1,2,3]) 


p1 = sample.Point(1, 2) 
p2 = sample.Point(4,5) 


sample. 


distance(pi, p2) 


4.242640687119285 


>>> 


15.1.3 





讨论 


本 节 中 有 几 个 地 方 需要 进行 讨论 。 第 一 个 问题 
是 关于 将 C 和 Python 代码 打包 在 一 起 。 如 果 要 用 
ctypes 来 访问 目 己 编译 的 C 代 码 ， 得 确保 把 共享 库 放 


在 sample.py 模 块 可 以 找 得 到 的 地 方 。 一 种 可 能 是 将 
得 到 的 .so 文件 与 所 文 撑 的 Python 代码 放 在 同一 个 目 
孙 中 。 这 正 是 本 贡 给 出 的 解决 方案 中 首先 完成 的 
sample.py 查询 _file_ 变量 ， 看 看 自己 被 安装 
到 何 处 ， 然 后 在 同样 的 目录 下 构建 一 个 路 径 指 

[=] libsample.so 文件 。 


如 果 要 把 C 库 安装 到 别处 ， 那 么 必须 相应 地 调 
整 路 径 。 如 条 C 库 已 经 作为 标准 库 安 装 到 你 的 机 器 
上 了 了， 那么 可 以 使 用 ctypes.util.find_libraryO 函 数 。 
示例 如 下 : 




















>>> from ctypes.util import 


find_library 

>>> find_library('m') 
'/usr/lib/libm.dylib' 

>>> find_library('pthread' ) 
'/usr/lib/libpthread.dy1lib' 
>>> find_library('sample' ) 
'/usr/local/lib/libsample.so' 
>>> 





再 次 申明 ， 如 果 ctypes 无 法 找到 C 库 则 不 能 继续 
装 库 。 


一 旦 知道 了 C 库 的 位 置 ， 可 以 使 用 


ctypes.cdll.LoadLibrary() 来 加 载 。 在 解决 方案 中 ， 
_path 是 指 问 共 圣 库 的 完整 路 人 符 ， 而 下 列 语句 则 用 来 
加 载 C 库 : 


_mod = ctypes.cdll.LoadLibrary(_path) 


一 旦 成 功 加 载 了 C 库 ， 我 们 需要 编写 代码 来 提 
取 特 定 的 符号 并 为 其 附 上 类 型 签名 。 这 正 是 由 如 下 
代码 完成 的 : 














# int in_mandel(double, double, int) 


in_mandel = _mod.in_mandel 


in_mandel.argtypes = (ctypes.c_double, ctypes.c_double, ctypes.c 
in_mandel.restype = ctypes.c_int 





在 这 份 代 码 中 ，.argtypes 属 性 是 一 个 元 组 ， 其 
中 包含 了 函数 的 输入 参数 ， 而 .restype 表 示人 返回 类 
型 。ctypes 中 定义 了 许多 类 型 对 象 〈 例 如 c_double、 
c_int、c_short、c_float 等 ) ， 它 们 用 来 代表 常见 的 
C 数 据 类 型 。 如 果 想 要 Python 传 递 正 确 的 参数 类 型 
并 对 数据 做 正确 的 转换 ， 那 么 给 值 附 上 类 型 签名 就 
是 至 关 重 要 的 了 如果 不 这 么 做 ， 不 仅 代 码 不 会 正 











各 工作 ， 而 且 还 会 使 得 整个 解释 磊 进 程 衣 泪 ) o 


使 用 ctypes 时 ， 一 个 多 少 有 些 环 手 的 地 方 在 于 
原始 的 C 代 码 中 可 能 会 用 到 一 些 惯 用 法 ， 而 它们 在 
概念 上 不 能 清晰 地 映射 到 Python 中 。divideO 函 数 就 
是 个 很 好 的 例子 ， 因 为 它 是 通过 其 中 一 个 参数 来 返 
回 值 的 。 尽 管 这 在 C 中 是 非 钊 利 见 的 技术 ， 但 放 在 
Python 中 往往 束 不 清楚 应 该 如 何 工 作 了 。 人 例如， 我 
们 不 能 直接 像 这 样 做 : 





>>> divide = _mod.divide 

>>> divide.argtypes = (ctypes.c_int, ctypes.c_int, ctypes.POINTE} 
>>> x = 0 

>>> divide(10, 3, x) 

Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 
ctypes.ArgumentError: argument 3: <class 'TypeError'>: expected 
instance instead of int 
>>> 





束 算 这 么 做 行 的 通 ， 也 会 违反 Python 中 整数 尽 
不 可 变 对 象 的 事实 ， 可 能 会 导致 整个 解释 需 进 程 卡 
死 在 黑洞 中 。 对 于 涉及 指针 的 参数 ， 通 党 必 须 构 建 
一 个 若 容 的 ctypes 对 象 ， 然 后 像 下 面 这 样 传 入 : 














>>> x = ctypes.c_int() 
>>> divide(10, 3, x) 
3 


>>> x.value 
1 


>>> 


pO 


这 里 我 们 创建 了 一 个 ctypes.c_int 对 象 ， 并 把 它 
作为 指针 对 象 传 递 给 函数 。 与 普通 的 Python 整数 不 
同 ，c_int 对 象 是 可 变 的 。 可 以 根据 需要 通过 .value 
属性 来 获取 或 修改 值 。 


对 于 那些 C 调 用 约定 (calling convention) 属于 
非 Pythonic (Pythonic 是 倡 语 ， 表 示 按 照 Python 的 方 
式 来 优雅 的 工作 ) 的 情况 ， 通 第 都 需要 编写 一 个 小 
型 的 包装 函数 来 处 理 。 在 解决 方案 中 ， 这 个 包 闭 六 
数 使 得 divideO 函 数 用 一 个 元 组 来 返回 两 个 结 采 值 : 








# int divide(int, int, int *) 


_divide = _mod.divide 
_divide.argtypes = (ctypes.c_int, ctypes.c_int, ctypes.POINTER(c 
_divide.restype = ctypes.c_int 


def 
divide(x, y): 
rem = ctypes.c_int() 


quot = _divide(x,y, rem) 
return 


quot, rem.value 





avg0 函 数 则 带 来 了 全 新 的 挑战 。 底 层 的 C 人 代码 
期 望 接收 一 个 指针 以 及 长 度 来 代表 一 个 数组 。 但 是 
从 Python 的 角度 来 看 ， 我 们 必须 考虑 下 列 问 题 : 什 
么 是 数组 ? 它 是 列表 还 是 元 组 ? 亦 或 是 array 模 块 中 
的 array 对 象 ? 是 numpy 中 的 数组 吗 ? 还 是 以 上 都 有 
可 能 呢 ? 在 实践 中 ， 一 个 Python“ 数 组 ”可 能 有 痢 许 
多 不 同 的 形式 ,， 而 且 也 许 我 们 会 想 文 持 这 多 种 可 


B 
HE o 








类 DoubleArrayType 展 示 了 如 何 处 理 这 种 情 
况 。 在 这 个 类 中 我 们 定义 了 方法 from_param0。 这 
个 方法 的 任务 就 是 接受 一 个 单独 的 参数 并 将 其 范围 
见 小 为 一 个 羔 容 的 ctypes 对 象 〈 在 本 例 中 就 是 指 癌 
ctypes.c_double 的 指针 ) 。 在 from_param0 中 ， 我 们 
可 以 自由 地 做 任何 想 做 的 事 。 在 我 们 的 解决 方案 
中 ， 参 数 的 类 型 名 被 提取 出 来 并 发 送 给 更 加 有 具体 的 
方法 。 例 如 ， 如 果 传 递 的 是 列表 ， 则 类 型 名 就 古 
list， 调 用 的 就 是 from_listO 方 法 。 














对 于 列表 和 元 组 ，from_listO 方 法 会 执行 转换 
到 ctypes 数 组 对 象 的 操作 。 这 看 起 来 有 点 上 古怪， 但 
下 面 是 将 列表 转换 为 ctypes 数 组 的 交互 式 例子 : 

















>>> nums = [1, 2, 3] 
>>> a = (ctypes.c_double * len(nums) )(*nums) 


<__main__.c_double_ Array_3 object at 0x10069cd40> 








对 于 array 对 象 ，from_array() 方 法 会 提取 底层 的 
en Lemme 示例 
HF: 


>>> import array 


>>> a = array.array('d',[1,2,3]) 
>>> a 

array('d', [1.0, 2.0, 3.0]) 

>>> ptr_ = a.buffer_info() 


>>> ctypes.cast(ptr, ctypes.POINTER(ctypes.c_double)) 
<__main__.LP_c_double object at 0x10069cd40> 
>>> 








from_ndarray() 则 对 numpy 数 组 做 了 人 处理。 


通过 定义 DoubleArrayType 类 并 在 avg() 的 类 型 
俭 名 中 使 用 ， 可 以 看 到 ， 函 数 可 接 党 多 种 不 同形 式 
的 数组 输入 : 





Import 


sample.avg([1,2,3]) 


sample.avg((1,2,3)) 


import array 


sample.avg(array.array('d',[1,2,3])) 


import numpy 


sample.avg(numpy.array([1.0,2.0,3.0])) 








本 市 的 最 后 部 分 是 展示 如 何 同 简单 的 C 结 构 体 
打交道 。 对 于 结构 体 来 说 ， 只 用 定义 一 个 类 ， 并 在 
其 中 包含 适当 的 字段 和 类 型 ， 示 例如 下 : 





class Point 


(ctypes.Structure): 


_fields_ = [('x', ctypes.c_double), 
('y', ctypes.c_double) ] 





一 旦 定义 完成 ， 束 可 以 在 类 型 签名 中 使 用 它 ， 
ee eer ee ee 
列 如 下 : 





>>> p1 = sample.Point(1, 2) 
>>> p2 = sample.Point(4,5) 


>>> sample.distance(p1, p2) 
4.242640687119285 
>>> 





最 后 再 多 说 几 句 : 如 果 所 有 你 想 做 的 只 是 在 
Python 中 访问 几 个 C 函 数 ， 那 么 ctypes 是 很 有 用 的 
库 。 但 是 ， 如 果 打 算 访问 一 个 庞大 的 C 库 ， 残 应 该 
看 看 其 他 的 方法 ， 比 如 Swig〈 见 15.9 节 ) 或 者 
Cython (415.1077) 。 


大 型 库 的 主要 问题 在 于 由 于 ctypes 并 不 是 全 上 
动 化 处 理 的 ， 我 们 将 不 得 不 花费 大 量 时 间 来 编写 所 
有 的 类 型 签名 ， 束 像 示 例 中 的 那样 。 根 据 库 的 复 条 
程度 ， 我 们 可 能 也 不 得 不 编写 大 量 的 小 型 包装 函数 
和 支撑 类 (类 似 于 DoubleArrayType) 。 此 外 ， 除 
非 完 全 理解 了 所 有 C 接 口 的 底层 细节 ， 包 括 内 存 管 
理 和 错误 处 理 ， 人 否则 很 容易 会 让 Python 由 于 段 错 
误 、 非 法 访问 或 其 他 类 似 的 错误 而 产生 灾难 性 的 崩 
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作为 ctypes 之 外 的 选择 ， 读 者 可 以 去 看 看 
CFFI Chttp://cffi.readthedocs.org/en/latest ) > CFFI 
提供 了 很 多 相同 的 功能 ， 但 使 用 的 是 C 的 语法 ， 而 
日 支 持 更 多 高 级 的 C 代 码 。 在 写作 本 节 时 ， 相 对 来 
说 CFFI 依 然 古 一 个 很 新 的 项 目 ， 但 对 它 的 使 用 已 经 
得 到 了 极 大 的 增长 。 其 至 有 一 些 关 于 在 今后 的 
python 版 本 中 将 其 纳入 到 Python 标 准 库 中 的 讨论 。 
因此 ，CFFI 绝 对 是 值得 去 留意 的 项 目 。 








15.2 ”编写 简单 的 C 语 言 扩 展 模块 
15.2.1 问题 


我 们 想 不 依赖 任何 其 他 工具 直接 用 Python 的 扩 
展 API 纺 与 一 个 简单 的 C 语 言 扩 展 模块 。 


15.2.2 ”解决 方案 
对 于 简单 的 C 代 码 ， 手 工 创 建 一 个 扩展 模块 是 


很 简单 直接 的 。 作 为 第 一 步 ， 可 能 要 确 你 目 己 的 C 
代码 有 一 个 合适 的 头 文件 。 比 如 ， 








/* sample.h */ 


#include <math.h> 


extern int 
gcd(int 


, int 


1 
extern int 


in_mandel(double 


x0, double 


yO, int 


n); 
extern int 


divide(int 


*remainder ); 
extern double 


avg(double 


n); 


typedef struct 


Point { 
double 


X,Y; 
} Point; 


extern double 


distance(Point *p1, Point *p2); 





通常 情况 下 这 个 头 文件 会 对 应 于 一 个 单独 编译 
好 的 库 。 带 着 这 个 假设 ， 下 面 是 一 个 C 语 言 扩展 模 





块 的 样 例 ， 用 来 说 明 编 写 扩 展 函数 的 基础 : 





#include "Python.h" 
#include "sample.h" 


/* int gcd(int, int) */ 


static 


PyObject *py_gcd(PyObject *self, PyObject *args) { 
int 

x, y, result; 
if 


(!PyArg_ParseTuple(args,"ii", &x, &y)) { 
return 


NULL; 


result = gcd(x,y); 
return 


Py BuildValue("i", result); 
} 


/* int in_mandel(double, double, int) */ 


static 


PyObject *py_in_mandel(PyObject *self, PyObject *args) { 
double 


x0, yO; 
int 


(!PyArg_ParseTuple(args, "ddi", &x0, &y0, &n)) { 
return 
NULL; 
result = in_mandel(x0,y0,n)j; 


return 


Py BuildValue("i", result); 
} 


/* int divide(int, int, int *) */ 


static 


PyObject *py_divide(PyObject *self, PyObject 
int 


a, b, quotient, remainder; 
if 


(!PyArg_ParseTuple(args, "ii", &a, &b)) { 
return 


NULL; 
} 


quotient = divide(a,b, &remainder); 
return 


Py BuildValue("(ii)", quotient, remainder); 


} 


/* Module method table */ 


static 


PyMethodDef SampleMethods[] = { 


“args) { 


{"gcd", py_gcd, METH_VARARGS, "Greatest common divisor"}, 


{"in_mandel", py_in_mandel, METH_VARARGS, 


"Mandelbrot test"}, 


{"divide", py_divide, METH_VARARGS, "Integer division"}, 


{ NULL, NULL, ©, NULL} 
}; 


/* Module structure */ 


static struct 


PyModuleDef samplemodule = { 
PyModuleDef_HEAD_INIT, 
"sample", /* name of module */ 


"A sample module", /* Doc string (may be NULL) */ 


-1, /* Size of per-interpreter state or -1 */ 


SampleMethods /* Method table */ 


}; 


/* Module initialization function */ 


PyMODINIT_FUNC 
PyInit_sample(void 


) i 


return 


PyModule_Create(&samplemodule) ; 
} 





为 了 构建 扩展 模块 ， 需 要 创建 一 个 setup.py 文 











| 


# setup.py 


from distutils.core import 


setup, Extension 


setup(name='sample', 
ext_modules=[ 
Extension('sample', 
['pysample.c'], 
include_dirs = ['/some/dir'], 
define_macros = [('FOO','1')], 
undef_macros = ['BAR'], 
library_dirs = ['/usr/local/lib'], 
libraries = ['sample' ] 


) 








现在 ， 要 构建 出 目标 库 ， 只 需要 用 python3 
buildlib.py build_ext --inplace。 示 例如 下 : 





bash % python3 setup.py build_ext --inplace 

running build_ext 

building 'sample' extension 

gcc -fno-strict-aliasing -DNDEBUG -g -fwrapv -03 -Wall -Wstrict- 
-I/usr/local/include/python3.3m -c pysample.c 
-o build/temp.macosx-10.6-x86_64-3.3/pysample.o 

gcc -bundle -undefined dynamic_lookup 

build/temp.macosx-10.6-x86_64-3.3/pysample.o \ 


-L/usr/local/lib -lsample -o sample.so 
bash % 


po 


如 上 所 示 ， 这 样 束 创建 了 一 个 名 为 sample.so 的 
共享 库 。 编 译 结束 后 ， 应 该 就 可 以 开始 将 其 当做 一 
个 Python 模块 来 导入 了 了 : 





>>> import sample 


>>> sample.gcd(35, 42) 
7 


>>> sample.in_mandel(0, 0, 500) 
1 


>>> sample.in_mandel(2.0, 1.0, 500) 
(0) 


>>> sample.divide(42, 8) 
(5, 2) 
>>> 





如 果 打 算 在 Windows 上 演 试 这 些 步骤 ， 可 能 需 
要 论点 时 间 设 置 构建 环境， 以 便 正确 生成 扩展 模 
块 。Python 的 二 进 制 发 行 版 明 常 是 用 微软 的 Visual 
Studio 来 构建 的 。 要 让 扩展 模块 正常 工作 ， 我 们 可 
能 也 要 用 相同 或 兼容 的 工具 来 编译 。 上 基体 请 参见 
Python 的 有 关 文 档 
Chttp://docs.python.org/3/extending/windows.html 


O 














15.2.3 phir 


ERAF CHS ERENT A, A 
Python CF FAY“ He ALAN fk Python fie FE 
ax (Extending and Embedding the Python 
Interpreter) 一 是 全 天 重要 的 。Python 的 C 语 言 打 - 
展 API 很 庞大 ， 在 这 里 重复 所 有 的 API 是 不 现实 的 。 
但 是 ， 我 们 可 以 吏 最 重要 的 部 分 在 此 讨论 。 


首先， 在 扩展 模块 中 编写 的 函数 通 津 部 有 者 如 
下 的 共同 原型 : 














static 


PyObject *py_func(PyObject *self, PyObject *args) { 


J 





PyObject 是 一 个 C 数 据 类 型 ， 表 示 任 意 的 Python 
WTR. Miki ERA, SERA eT 
Cereal, Efese—2A Python} 4% (7EPyObject *args 
H) 并 返回 一 个 新 的 Python 对 象 作为 结果 。 对 于 简 
单 的 扩展 函数 来 说 ， 函 数 的 self 参 数 是 用 不 到 的 ， 

但 是 当 想 在 C 中 定义 新 的 类 或 对 象 类 型 时 束 会 派 上 
HS OWN, WRT RACER PATE, AB 

















么 self 束 会 用 来 表示 对 象 实 例 )。 


PyArg_ParseTuple() 函 数 用 来 将 值 从 Python 转 换 
为 C 语 言 中 的 表示 。 作 为 输入 ， 它 接受 一 个 格式 化 
字符 串 用 来 表示 所 需 的 值 类 型 ， 例 如 “表示 整数 ， 
而 “d” 表 示 double 型 浮 点 数 。 此 外 ， 它 还 接受 C 变 量 
的 地 址 作为 参数 ， 用 来 放置 转换 后 的 结果 。 
PyArg_ParseTuple0 会 对 参数 的 数量 和 类 型 做 许多 检 
但 。 如 果 在 格式 化 字符 串 中 发 现 有 任何 不 匹配 的 
项 ， 则 会 产生 一 个 异 利 并 返回 NULL。 通 过 对 参数 
的 检查 以 及 返回 NULL， 在 调用 端 就 会 产生 适当 的 
Fin S o 


K% Py_BuildValue0 H AEM CHE R BH E h 
对 应 的 Python 对 象 。 它 也 接受 一 个 格式 化 代码 用 来 
表示 所 需 的 类 型 。 在 扩展 函数 中 ， 它 用 来 将 结果 返 
回 给 Python。Py_BuildValue0) 的 一 个 特性 是 它 可 以 
构建 类 型 更 加 复杂 的 对 象 ， 比 如 元 组 和 字典 。 在 针 
对 py_divide() 的 代码 中 ， 我 们 已 经 展示 了 一 个 返回 
元 组 的 例子 。 但 是 ， 下 和 面 还 有 一 些 更 多 的 示例 : 



































return 


Py_BuildValue("i", 34); // Return an integer 
return 


Py BuildValue("d", 3.4); // Return a double 


return 


Py BuildValue("s", "Hello"); // Null-terminated UTF-8 string 
return 


Py Buildvalue("(ii)", 3, 4); // Tuple (3, 4) 





在 任何 扩展 模块 代码 的 底部 ， 我 们 都 会 找到 一 
个 像 示 例 中 的 SampleMethods 这 样 的 函数 表 。 这 张 
表 列 出 了 C 函 数 、 在 Python 中 所 用 的 名 称 以 及 文档 
字符 串 。 所 有 的 模块 都 需要 指定 一 个 这 样 的 表 ， 它 
会 在 模块 初始 化 时 用 到 。 


最 后 ， 了 函数 PyInit_sample0) 是 模块 的 初始 化 函 
数 ， 当 模块 首次 导入 时 会 调用 执行 。 它 的 主要 工作 
就 是 把 模块 对 象 注册 到 解释 器 中 。 


作为 最 后 的 说 明 ， 必 须要 强调 的 是 ， 关 于 用 C 
疯 数 来 扩展 Python， 还 有 相当 多 的 内 容 没 有 在 这 里 
给 出 (事实 上 ，Python 的 C API 中 包含 了 超过 500 个 
PRL) 。 你 应 该 把 本 节 当 做 入 门 的 踏 脚 石 。 要 完成 
更 多 功能 ， 可 以 从 函数 PyArg_ParseTupleO0 和 
Py_BuildValue() 的 文档 开始 ， 然 后 从 那儿 开始 扩 
展 。 

















15.3 ”编写 一 个 可 操作 数组 的 扩展 
pki 2 


15.3.1 问题 


我 们 想 编 写 一 个 C 扩 展 函 数 来 操作 数组 型 数 
据 ， 数 组 可 能 会 通过 array 模 块 或 NumPy 这 样 的 库 来 
创建 。 但 是 ， 我 们 想 让 自己 的 函数 变 得 通用 ， 而 不 
必 有 具体 于 任何 一 个 创建 数组 的 库 。 


15.3.2 解决 方案 


要 以 可 移植 的 方式 来 接收 和 处 理 数 组 ， 应 该 编 
写 使 用 了 Buffer Protocol ([http://docs. 
python.org/3/c-apibuffer.htmlj(http:/docs. 
python.org/3/c-api/buffer.html)) 的 代码 。 下 面 是 一 
个 手写 的 C 扩 展 函 数 示 例 ， 它 接受 数组 数据 并 调用 
本 章 介 绍 部 分 给 出 的 avg(double *buf, int len) Až: 

















/* Call double avg(double *, int) */ 


static 


PyObject *py_avg(PyObject *self, PyObject *args) { 
PyObject *bufobj; 
Py_ buffer view; 
double 


result; 
/* Get the passed Python object */ 


if 


(!PyArg_ParseTuple(args, "0", &bufobj)) { 
return 


NULL; 


} 


/* Attempt to extract buffer information from it */ 


if 


(PyObject_GetBuffer(bufobj, &view, 


PyBUF_ANY_CONTIGUOUS | PyBUF_FORMAT) == -1) { 
return 
NULL; 
} 
if 
(view.ndim != 1) { 


PyErr_SetString(PyExc_TypeError, "Expected a 1-dimensional a 
PyBuffer_Release(&view) ; 
return 


NULL; 


j 


/* Check the type of items in the array */ 


if 


(strcmp(view.format,"d") != 0) { 
PyErr_SetString(PyExc_TypeError, "Expected an array of doubl 
PyBuffer_Release(&view) ; 
return 


NULL; 
} 


/* Pass the raw buffer and size to the C function */ 


result = avg(view.buf, view.shape[0]); 


/* Indicate we're done working with the buffer */ 


PyBuffer_Release(&view) ; 
return 


Py BuildValue("d", result); 
} 





下 面 的 示例 展示 了 这 个 扩展 函数 是 如 何 工作 


>>> Import array 


>>> avg(array.array('d',[1,2,3])) 


2.0 
>>> import numpy 


>>> avg(numpy.array([1. 


2.0 
>>> avg([1,2,3]) 
Traceback (most recent 
File "<stdin>", 
TypeError: 'list' 
>>> avg(b'Hello') 
Traceback (most recent 
File "<stdin>", line 
TypeError: Expected an 


does 


line 


0,2.0,3.0])) 


call last): 
1, in <module> 
not support the buffer interface 


call last): 
1, in <module> 
array of doubles 


>>> a = numpy.array([[1.,2.,3.],[4.,5.,6.]]) 


>>> avg(a[:,2]) 
Traceback (most recent 
File "<stdin>", line 
ValueError: ndarray is 
>>> sample.avg(a) 
Traceback (most recent 
File "<stdin>", line 


call last): 
1, in <module> 
not contiguous 


call last): 
1, in <module> 


TypeError: Expected a 1-dimensional array 


>>> sample.avg(a[0]) 
2.0 
>>> 





15.3.3 phir 


hy EY RAE EZS CRR BY Hee TE Fn H Je RK 
数 中 最 第 过 到 的 情况 之 一 了 。 从 图 像 处 理 到 科学 计 
算 领域 ， 有 大 量 的 Python 应 用 程序 都 依赖 于 对 数组 


的 高 效 处 理 。 通 过 编写 可 以 接受 并 操作 数组 的 代 
码 ， 束 可 以 编写 目 定 义 的 代码 来 很 好 地 应 用 到 这 些 
应 用 之 上 ， 而 不 是 或 揭 出 茶 种 目 定义 的 解决 方案 只 
能 用 在 自己 的 代码 中 。 


示例 代码 的 核心 束 在 PyBuffer_GetBuffer() 函 数 
E. 任意 给 定 一 个 Python 对 象 ， 该 函数 会 尝试 获取 
有 关 对 象 底 层 内 存 表示 的 相关 信息 。 如 果 无 法 做 到 
这 点 一 大 部 分 普通 的 Python 对 象 都 属于 这 种 情 
况 ， 则 会 产生 一 个 异常 并 返回 -1。 传 给 
PyBuffer_GetBuffer() 的 特殊 标记 进一步 提供 了 所 请 
求 的 内 存 缓冲 区 的 类 型 。 例 如 ， 
PyBUF_ANY_CONTIGUOUS 表 示 请 求 的 是 一 段 连 
续 的 内 存 。 


针对 数组 、 字 节 串 以 及 其 他 类 似 的 对 象 ， 结 构 
体 Py_buffer 中 会 保存 有 关 展 层 内 存 的 信息 。 这 包括 
一 个 指向 内 存 块 的 指针 、 总 内 存 大 小 、 数 组 中 每 个 
元 际 的 大 小 、 格 式 以 及 其 它 细节 。 下 面 是 这 个 络 构 
体 的 定义 : 




















typedef struct 


bufferinfo { 


*buf; /* Pointer to buffer memory */ 


PyObject *obj; /* Python object that is the owne 


Py_ssize_t len; /* Total size in bytes */ 
Py_ssize_t itemsize; /* Size in bytes of a single it 
int 

readonly; /* Read-only access flag */ 
int 

ndim; /* Number of dimensions */ 
char 

*format; /* struct code of a single item */ 
Py_ssize_ t *shape; /* Array containing dimensions */ 
Py_ssize t *strides; /* Array containing strides */ 


Py_ssize_t *suboffsets; /* Array containing suboffsets * 


} Py_buffer; 


在 本 节 中 ， 我 们 只 考虑 接收 一 个 内 存 连 续 的 
double 型 浮上 点数 数组 。 要 检查 数组 元 和 聚 是 售 是 
double 型 的 ， 可 以 检查 format 属 性 的 格式 化 字符 串 
是 个 为 “d"。 这 个 格式 化 字符 串 也 是 标准 库 中 struct 
模块 用 来 编码 二 进 制 值 时 所 用 的 。 一 般 来 说 ， 
format H] 以 是 任意 一 种 同 struct 横 块 相 兼 容 的 格式 化 
字符 串 。 如 果 数 组 中 包含 C 结 构 体 ， 那 么 这 个 格式 
化 字符 串 也 可 能 会 包含 多 个 类 型 代码 。 


一 旦 我 们 验证 了 的 层 缓冲 区 的 信息 ， 我 们 只 需 
简单 地 将 其 传 给 C 函 数 ( 示 例 中 为 avg0 函 数 ) ， 则 
它 会 被 当做 一 个 普通 的 C 数 组 来 对 待 。 这 么 做 的 实 
践 意义 在 于 不 用 考虑 数组 是 什么 类 型 ， 也 不 必 考 虑 
它 是 由 什么 库 创建 出 来 的 。 这 就 是 为 什么 我 们 的 函 
数 既 可 以 同 array 模 块 也 可 以 同 numpy 库 创建 出 的 数 
组 一 起 工作 的 原因 。 


在 返回 最 终结 果 前 ， 底 层 的 缓冲 区 必须 通过 
PyBuffer_Release0 来 释放 。 我 们 需要 通过 这 个 步 双 


来 恰当 地 管理 对 象 的 引用 计数 。 

















再 次 申明 ， 本 节 只 展示 了 一 小 段 接 收 数组 的 代 
人 码 。 如 采 要 同 数组 打交道 ， 则 可 能 会 遇 到 多 维 数 
组 、 不 同 的 数据 类 型 以 及 更 多 需要 学 习 的 技术 。 确 
保 去 查看 官方 文档 Chttp://docs.python.org/3/c- 
api/buffer.html 〉 以 获得 更 多 的 细 市 。 


如 下 种 要 编写 许多 涉及 数组 处 理 的 C 扩 展 函 
数 ， 可 能 会 发 现 以 Cython 来 实现 这 些 代 码 会 更 容易 
些 。 上 有 具体 请 参见 15.117 。 











15.4 在 C 扩 展 模 块 中 管理 不 透明 
指针 
15.4.1 问题 

我 们 有 一 个 扩展 模块 需要 处 理 指向 C 结 构 体 的 


生 针 ， 但 是 不 想 把 结构 体 的 任何 内 部 细节 暴露 给 
Python 。 


15.4.2 解决 方案 


不 透明 数据 结构 很 容易 通过 将 它们 包装 进 一 个 
capsule 对 象 中 来 处 理 。 考 虑 下 面 的 代码 片段 : 





typedef struct 


Point { 
double 


X,Y; 
} Point; 


extern double 


distance(Point *p1, Point *p2); 


[L SCR 


这 里 是 一 个 扩展 代码 的 示例 ， 其 中 使 用 了 
capsule 对 象 来 对 Point 结 构 体 和 distanceO 函 数 进 行 包 
装 . 





/* Destructor function for points */ 


static void 


del_Point(PyObject *obj) { 
free(PyCapsule_GetPointer(obj,"Point")); 


/* Utility functions */ 


static 


Point *PyPoint_AsPoint(PyObject *obj) { 
return 


(Point *) PyCapsule_GetPointer(obj, "Point"); 
} 
static 


PyObject *PyPoint_FromPoint(Point *p, int 


must_free) { 
return 


PyCapsule_New(p, "Point", must_free ? del Point : NULL); 


/* Create a new Point object */ 


static 


PyObject *py_Point(PyObject *self, PyObject *args) { 
Point *p; 
double 


X,Y; 
if 


(!PyArg_ParseTuple(args,"dd",&x,&y)) { 
return 


NULL; 


p = (Point *) malloc(sizeof 


(Point)); 
p->X = X; 
p->y = y; 
return 


PyPoint_FromPoint(p, 1); 
} 


static 


PyObject *py_distance(PyObject *self, PyObject *args) { 
Point *p1, *p2; 
PyObject *py_p1, *py_p2; 
double 


result; 


if 


(!PyArg_ParseTuple(args,"00",&py_p1, &py_p2)) { 
return 


NULL; 


} 
if 


(!(p1 = PyPoint_AsPoint(py_p1))) { 
return 


NULL; 


} 
if 


(!(p2 = PyPoint_AsPoint(py_p2))) { 
return 
NULL; 
result = distance(p1i,p2); 


return 


Py BuildValue("d", result); 
} 





下 面 让 我 们 从 Python 中 来 使 用 这 些 函 数 : 


>>> import sample 


>>> p1 = sample.Point(2,3) 

>>> p2 = sample.Point(4,5) 

>>> p1 

<capsule object "Point" at 0x1004ea330> 
>>> p2 

<capsule object "Point" at 0x1005d1idb0> 
>>> sample.distance(pi1, p2) 

2 .8284271247461903 

>>> 





15.4.3 讨论 


capsule 对 象 和 C 语 言 中 的 void 指针 很 相似 。 
capsule 对 象 内 部 持 有 一 个 泛 型 指针 以 及 一 个 标识 名 
称 。 可 以 通过 PyCapsule_New0) 函 数 来 轻松 创建 出 
capsule 对 象 。 此 外 ， 可 以 在 capsule 对 象 上 关联 一 个 
可 选 的 析 构 函数 ， 当 capsule 对 象 被 垃圾 收集 机 制 回 
收 时 可 用 来 释放 底层 的 内 存 空间 。 


要 提取 出 包含 在 capsule 对 象 中 的 指针 ， 可 以 通 
过 函数 PyCapsule_GetPointer0 来 完成 ， 只 要 指定 名 
称 即 可 。 如 果 提 供 的 名 称 与 capsule 对 象 不 号 配 或 者 
出 现 了 其 他 的 错误 ， 那 么 会 产生 一 个 异常 并 返回 
NULL. 











本 贡 中 我 们 编写 了 一 对 功能 函数 
PyPoint_FromPoint() 和 PyPoint_AsPoint()， 用 来 处 理 
从 capsule 对 象 中 创建 和 回 退 Point 实 例 。 在 所 有 的 扩 - 
展 函 数 中 ， 我 们 都 会 使 用 这 一 对 函数 而 不 是 直接 同 
capsule 对 象 打交道 。 这 个 设计 决策 使 得 将 来 对 包装 
Point 对 象 的 修改 会 变 得 更 容易 些 。 例 如 ， 如 果 稍 后 
决定 使 用 其 他 的 机 制 而 不 是 capsule 对 象 的 话 ， 只 需 
要 修改 这 两 个 函数 即 可 。 


在 使 用 capsule 对 象 时 ， 一 个 比较 杯 手 的 地 方 在 
于 需要 考虑 坟 圾 收集 和 内 存 管理 。 函 数 
PyPoint_FromPointO 接 受 一 个 must_free 人 参数， 表示 
当 capsule 对 象 被 销毁 时 ， 辰 层 的 Point 结 构 体 所 占用 
的 内 存 是 否 也 要 被 回收 。 当 过 到 这 样 的 C 代 码 时 ， 
对 象 的 归属 (ownership〉 问题 会 很 难处 理 〈 例 如 ， 
也 许 Point 结 构 体 艇 入 到 了 男 一 个 更 大 的 数据 结构 
中 ， 而 那个 结构 体 是 单独 管理 的 ) 。 与 其 把 宝 都 押 
在 垃圾 收集 上 ， 这 个 额外 的 参数 使 得 控制 权重 新 回 
到 程序 员 手 上 。 应 该 要 注意 的 是 ， 已 经 在 capsule 对 
象 上 关联 的 析 构 函数 也 可 以 通过 使 用 
PyCapsule_SetDestructor() K BOK IE EX © 


当面 对 某 些 涉及 结构 体 的 C 代 码 时 ，capsules 是 
一 种 明智 的 解决 方案 。 比 如 说 ， 有 时 候 我 们 并 不 在 
乎 把 结构 体 的 细节 雄 露 出 来 ， 或 者 会 将 其 转换 为 一 
个 全 功能 的 扩展 类 型 。 有 了 capsule， 我 们 可 以 为 结 


























构 体 加 上 一 个 轻 量 级 的 包装 层 ， 这 样 可 以 轻松 将 其 
传递 给 其 他 的 扩展 函数 。 





15.5 ”在 扩展 模块 中 定义 并 导出 C 
API 


15.5.1 问题 


我 们 有 一 个 C 扩 展 模 块 在 内 部 定义 了 各 种 有 用 
的 函数 ， 现 在 想 将 它们 导出 作为 公有 的 C API 在 别 
处 使 用 。 我 们 想 把 这 些 函 数 用 在 其 他 的 扩展 模块 
中 ， 但 是 不 知道 该 如 何 将 它们 链接 在 一 起 ， 而 用 C 
编译 器 /链接 器 来 做 似乎 又 显得 过 于 复杂 (或 者 根本 
不 可 能 做 到 ) 。 








15.5.2 ”解决 方案 


本 节 把 重点 放 在 处 理 Point 对 象 的 代码 上 ， 代 码 
在 15.4 节 中 已 给 出 。 如 果 回 顾 一 下 ， 这 里 的 C 代 码 
中 包含 了 一 些 实用 的 函数 ， 比 如 : 











/* Destructor function for points */ 


static void 


del_Point(PyObject *obj) 
free(PyCapsule_GetPointer(obj, "Point")); 


} 
/* Utility functions */ 
static 


Point *PyPoint_AsPoint(PyObject *obj) { 
return 


(Point *) PyCapsule_GetPointer(obj, "Point"); 
} 

static 

PyObject *PyPoint_FromPoint(Point *p, int 


must_free) { 
return 


PyCapsule_New(p, "Point", must_free ? del Point : NULL); 





SALE EY Dy pel ait ee OH AY PKI SC PyPoint_AsPoint() 
和 PyPoint_FromPoint() 作 为 API 导 出 ， 让 其 他 的 扩展 
模块 可 以 使 用 和 链接 例如， 如果 有 其 他 的 扩展 模 








块 也 想 使 用 包装 过 的 Point 对 象 〉。 


要 解决 这 个 问题 ， 首 先 为 示例 扩展 模块 引入 一 
个 全 新 的 头 文件 pysample.hn 。 将 下 列 代码 输入 到 这 








人 





/* pysample.h */ 


#include "Python.h" 
#include "sample.h" 
#ifdef _ cplusplus 
extern 


wer { 
#endif 


/* Public API Table */ 


typedef struct 


{ 
Point *(*aspoint)(PyObject *); 
PyObject *(*frompoint)(Point *, int 


) ; 
} _PointAPIMethods; 


#ifndef PYSAMPLE_MODULE 
/* Method table in external module */ 


static 


_PointAPIMethods *_point_api = 0; 


/* Import the API table from sample */ 


static int 


import_sample(void 


) { 
_point_api = (_PointAPIMethods *) PyCapsule_Import("sample._po 
return 


(_point_api != NULL) ? 1: 0; 
} 


/* Macros to implement the programming interface */ 


#define PyPoint_AsPoint(obj) (_point_api->aspoint)(obj) 
#define PyPoint_FromPoint(obj) (_point_api->frompoint ) (obj) 
#endif 

#ifdef _ cplusplus 


#endif 





这 里 最 重要 的 特性 就 是 函数 指针 表 





_PointAPIMethods。 它 会 在 导出 模块 中 进行 初始 
人 化， 这样 在 导入 模块 中 就 可 以 找到 它 。 


修改 原来 的 扩展 模块 ， 增 加 这 个 函数 指针 表 并 
像 下 面 这 样 进行 导出 : 


| 





/* pysample.c */ 


#include "Python.h" 
#define PYSAMPLE_MODULE 
#include "pysample.h" 


/* Destructor function for points */ 


static void 


del_Point(PyObject *obj) { 
printf("Deleting point\n 


"); 
free(PyCapsule_GetPointer(obj,"Point")); 
} 


/* Utility functions */ 
static 


Point *PyPoint_AsPoint(PyObject *obj) { 
return 


(Point *) PyCapsule_GetPointer(obj, "Point"); 
} 


static 


PyObject *PyPoint_FromPoint(Point *p, int 


free) { 
return 


PyCapsule_New(p, "Point", free ? del_Point : NULL); 
} 


static _PointAPIMethods _point_api = { 
PyPoint_AsPoint, 
PyPoint_FromPoint 


}; 


/* Module initialization function */ 
PyMODINIT_FUNC 
PyInit_sample(void) { 

PyObject *m; 

PyObject *py_point_api; 


m = PyModule_Create(&samplemodule) ; 
if (m == NULL) 
return NULL; 


/* Add the Point C API functions */ 
py_point_api = PyCapsule_New((void *) &_point_api, "sample._po 
if (py_point_api) { 

PyModule_AddObject(m, "_point_api", py_point_api); 

} 


return m; 





最 后 ， 下 和 耐 这 个 示例 是 一 个 新 的 扩展 模块 ， 它 
会 加 载 并 使 用 这 些 API 函 数 : 





/* ptexample.c */ 


/* Include the header associated with the other module */ 


#include "pysample.h" 


/* An extension function that uses the exported API */ 


static 


PyObject *print_point(PyObject *self, PyObject *args) { 
PyObject *obj; 
Point *p; 
if 


(!PyArg_ParseTuple(args,"0", &obj)) { 
return 


NULL; 
} 


/* Note: This is defined in a different module */ 


p = PyPoint_AsPoint(obj); 
if 


('p) { 


return 


NULL; 


} 
printf("%f %f\n 


, P->X, p->y); 
return 


Py BuildValue(""); 


static 


PyMethodDef PtExampleMethods[] = { 

{"print_point", print_point, METH_VARARGS, "output a point"}, 
{ NULL, NULL, ©, NULL} 

}; 


static struct 


PyModuleDef ptexamplemodule = { 
PyModuleDef_HEAD_INIT, 


"otexample", /* name of module */ 

"A module that imports an API", /* Doc string (may be NULL 
-1, /* Size of per-interpreter sta 
PtExampleMethods /* Method table */ 


}; 


/* Module initialization function */ 


PyMODINIT_FUNC 
PyInit_ptexample(void 


) { 
PyObject *m; 


m = PyModule_Create(&ptexamplemodule); 


if 


(m == NULL) 
return 


NULL; 
/* Import sample, loading its API functions */ 
if 


(!import_sample()) { 
return 


NULL; 
} 


return 


Ww 3 





当 编 译 这 个 新 的 模块 时 ， 我 们 甚至 不 必 操 心 去 
链接 任何 库 或 者 其 他 模块 中 的 代码 。 只 用 创建 一 个 
简单 的 setup.py 文件 即 可 : 


# setup.py 


from distutils.core import 


setup, Extension 


setup(name='ptexample', 
ext_modules=[ 
Extension('ptexample', 
['ptexample.c'], 
include_dirs = [], # May need pysample.h direc 





如 果 一 切 顺 利 ， 就 会 发 现 我 们 的 新 扩展 模块 可 
以 完美 地 同 定 义 在 其 他 模块 中 的 C API 一 起 工作 
J: 


>>> import sample 


>>> p1 = sample.Point(2,3) 

>>> p1 

<capsule object "Point *" at 0x1004ea330> 
>>> import ptexample 


>>> ptexample.print_point(p1) 
2.000000 3.000000 
>>> 





15.5.3 phir 


本 节 所 讨论 的 技术 依赖 于 一 个 事实 ， 即 ， 
capsule 对 象 可 以 持 有 一 个 指针 ， 访 指针 可 指 回 任 何 
所 希望 的 对 象 。 在 这 种 情况 下 ， 定 义 capsule 对 象 的 
模块 会 去 填充 函数 指针 结构 体 ， 创 建 一 个 capsule 对 
象 并 让 它 指 同 这 个 函数 指针 表 ， 最 后 将 capsule 对 象 
保存 在 模块 级 属性 中 〈 即 ，sample. point_api) 。 


当 导 入 模块 后 ， 其 他 的 模块 就 可 以 通过 编程 的 
方式 来 获取 这 个 属性 并 提取 出 的 层 的 指针 。 实 际 
上 上 ，Python 提 供 了 实用 疯 数 PyCapsule_Import()， 它 
可 以 为 我 们 完成 所 有 的 步骤 。 我 们 只 用 给 它 提 供 一 
个 属性 名 (例如 sample._point_api) ， 它 就 会 找到 
capsule 对 象 并 提取 出 指针 。 


这 里 用 到 了 一 些 C 编 程 技巧 使 得 导出 的 函数 在 
其 他 模块 中 看 起 来 也 并 无 不 同 之 处 。 在 文件 
pysample.h 中 ， 指 针 _point_api 用 来 指 癌 在 导出 模块 
中 初始 化 的 函数 指针 表 。 用 import_sample() 函 数 来 
执行 导入 capsule 对 象 以 及 初始 化 指针 _point_api 的 任 
务 。 在 使 用 模块 中 的 其 他 函数 之 前 ， 必 须 先 调用 
import_sample()。 通 常 这 会 在 模块 初始 化 的 时 候 完 
成 调用 。 最 后 ， 还 定义 了 一 组 C 预 处 理 需 宏 以 透明 
的 方式 通过 函数 指针 来 引用 API 函 数 。 用 户 只 需要 
使 用 原来 的 函数 名 即 可 ， 并 不 需要 知道 底层 是 通过 









































这 些 宏 经 过 额外 的 一 层 间 接 关 系 来 引用 函数 的 。 


最 后 ， 为 什么 要 用 这 项 技术 来 将 模块 链接 在 一 
起 还 有 另 一 个 重要 的 原因 一 这样 做 更 加 简单 而 且 
保证 了 模块 间 层 次 清晰 、 耦 合 上 度 低 。 如 果 不 想 使 用 
本 节 展 示 的 技术 ， 也 可 以 利用 共享 库 和 动态 加 载 侣 
的 功能 来 做 交叉 链接 。 比 如 ， 把 所 有 公用 的 API 函 
数 放 在 共享 库 中 ， 并 确保 所 有 的 扩展 模块 都 来 链接 
这 个 共享 库 。 是 的 ， 这 么 做 可 行 ， 但 是 在 大 型 系统 
PXA RESIM. KME, KECA I 
所 有 的 魔法 ， 人 允许 模块 通过 Python 的 普通 导入 机 制 
以 及 极 少数 的 capsule 调 用 实现 对 其 他 模块 的 链接 。 
至 于 模块 的 编译 问题 ， 只 需要 担心 头 文 件 而 不 是 共 
享 库 的 实现 细节 。 


更 多 有 关 为 扩展 模块 提供 C API 的 信息 可 以 在 
Python 文档 
Chttp://docs.python.org/3/extending/extending.html 
) 中 找到 。 




















15.6 MACH ii H Python 
15.6.1 问题 


我 们 想 以 安全 的 方式 从 C 中 执行 一 个 Python 的 
可 调用 对 象 ， 并 将 结果 人 返回 到 C 中 。 比 方 说 ， 也 许 
你 正在 编写 C 代 码 ， 布 望 把 一 个 Python 函数 当做 回 
调 来 使 用 。 








15.6.2 解决 方案 


在 C 中 调用 Python 基 本 上 是 简单 明了 的 事 ， 但 
是 有 几 个 地 方 需要 用 到 一 些 技巧 。 下 面 的 C 代 码 作 
为 一 个 示例 展示 了 如 何 安全 的 从 C 中 调用 Python: 





#include <Python.h> 


/* Execute func(x,y) in the Python interpreter. The 


arguments and return result of the function must 


be Python floats */ 


double 


call_func(PyObject *func, double 


x, double 


y) { 
PyObject *args; 
PyObject *kwargs; 
PyObject *result = 0; 
double 

retval; 


/* Make sure we own the GIL */ 


PyGILState_STATE state = PyGILState_Ensure(); 


/* Verify that func is a proper callable */ 


if 


(!PyCallable_Check(func)) { 
fprintf(stderr,"call_func: expected a callable\n 


"); 
goto 


fail; 


/* Build arguments */ 


args = Py_BuildValue("(dd)", x, y); 


kwargs = NULL; 


/* Call the function */ 


result = PyObject_Call(func, args, kwargs); 
Py_DECREF(args); 
Py_XDECREF(kwargs) ; 


/* Check for Python exceptions (if any) */ 


if 


(PyErr_Occurred()) { 
PyErr_Print(); 
goto 


fail; 
} 


/* Verify the result is a float object */ 


if 


(!PyFloat_Check(result)) { 
fprintf(stderr,"call_func: callable didn't return a float\n 


"); 
goto 


fail; 
} 


/* Create the return value */ 


retval = PyFloat_AsDouble(result); 
Py _DECREF(result); 


/* Restore previous GIL state and return */ 


PyGILState_Release(state); 
return 


Py_XDECREF (result); 
PyGILState_Release(state); 
abort(); // Change to something more appropriate 





要 使 用 这 个 函数 ， 需 要 将 一 个 已 存在 的 Python 
可 调用 对 象 的 引用 传递 进来 。 有 许多 种 方法 可 以 实 
现 ， 比 如 把 一 个 可 调用 对 象 传递 到 一 个 扩展 梗 其 





中 ， 或 者 直接 编写 C 代 码 从 已 有 的 模块 中 提取 出 相 
应 的 从 号 。 


下 和 面 这 个 简单 的 例子 展示 了 从 一 个 散 入 的 
Python fi Ar yal H PA 2X: 


#include <Python.h> 





/* Definition of call_func() same as above */ 


/* Load a symbol from a module */ 


PyObject *import_name(const char 
*modname, const char 


*symbol) { 
PyObject *u_name, *module; 
u_name = PyUnicode_FromString(modname) ; 
module = PyImport_Import(u_name) ; 
Py _DECREF(u_name); 
return 


PyObject_GetAttrString(module, symbol); 


/* Simple embedding example */ 


int 


main() { 
PyObject *pow_func; 
double 


X; 


Py_Initialize(); 
/* Get a reference to the math.pow function */ 


pow_func = import_name("math", "pow”") ， 


/* Call it using our call_func() code */ 


for 


(x= 0.0; x < 10.0; x += 0.1) { 
printf ("%0.2f %0.2f\n 


", X, call_func(pow_func,x,2.0)); 
} 
/* Done */ 


Py DECREF(pow_func); 
Py_Finalize(); 
return 





要 构建 这 个 最 新 的 示例 ， 需 要 编译 上 述 C 代 码 
并 同 Python 解 释 右 链接 。 这 里 有 一 个 Makefile 告 诉 





我 们 如 何 去 做 〈 可 能 需要 在 自己 的 机 器 上 做 些 调 
整 ) 





cc -g embed.c -I/usr/local/include/python3.3m \ 


-L/usr/local/lib/python3.3/config-3.3m -lpython3.3m 





编译 代码 并 运行 得 到 的 可 执行 文件 ， 应 该 会 产 
生 类 似 这 样 的 输出 : 





下 面 的 示例 和 有 不 同 ， 一 个 扩展 函数 接收 一 个 
Python 可 调用 对 象 以 及 一 些 参数 ， 并 将 它们 传递 给 
call_funcO 用 于 测试 : 


/* Extension function for testing the C-Python callback */ 
PyObject *py_call_func(PyObject *self, PyObject *args) { 
PyObject *func; 
double x, y, result; 
if (!PyArg_ParseTuple(args, "Odd", &func,&x,&y)) { 
return NULL; 


result = call_func(func, x, y); 
return Py_BuildValue("d", result); 





使 用 这 个 扩展 函数 ， 可 以 像 下 面 这 样 测试 其 功 


ab 
He 


>>> import sample 
>>> def add(x,y): 
return x+y 


>>> > sample.call_func(add, 3, 4) 


7.0 
>>> 





15.6.3 “讨论 


如 果 要 从 C 中 调用 Python， 需 要 记 住 的 最 重要 
的 事情 束 是 此 时 C 会 获得 程序 的 控制 权 。 也 就 是 
说 ， 创 建 参 数 、 调 用 Python 函 数 、 检 查 是 否 有 异 
a 检查 类 型 、 获 取 返 回 值 等 贡 任 都 钞 在 了 C 的 刁 


首先 ， 很 重要 的 一 点 是 我 们 得 有 一 个 Python 对 
象 ， 用 来 代表 打算 去 调用 的 那个 可 调用 对 象 。 这 可 
以 是 函数 、 类 、 方 法 、 内 建 方法 或 者 任何 实现 了 
cal 0 操作 的 对 象 。 要 验证 对 象 是 否 是 可 调用 
的 ， 可 以 使 用 下 列 代码 片段 中 给 出 的 
PyCallable_Check() PA 2: 























double call_func(PyObject *func, double x, double y) { 


/* Verify that func is a proper callable */ 

if (!PyCallable_Check(func)) { 
fprintf(stderr, "call_func: expected a callable\n"); 
goto fail; 

} 


顺便 说 一 句 ， 我 们 需要 仔细 学 习 如 何在 C 代 码 
中 处 理 错 误 。 一 般 来 说 ， 我 们 没 法 直接 抛 出 一 个 
Python 有 寞 第。 相反 ， 错 误 需 要 投 照 C 语 言 的 方式 来 
处 理 。 在 给 出 的 解决 方案 中 ， 我 们 使 用 goto 来 将 控 
制 流转 移 到 一 个 错误 处 理 块 中 ， 并 在 那里 调用 
abortO 函 数 。 这 会 导致 整个 程序 退出 ， 但 是 在 现实 
环境 中 可 能 需要 做 些 更 加 优雅 的 处 理 〈 例 如 返回 一 
个 状态 码 ) 。 请 记 住 ， 此 时 是 C 代 码 在 接管 控制 
流 ， 因 此 抛 出 开 第 是 无 法 同 C 兼 容 的 。 错 误 处 理 必 
须 由 构建 到 程序 中 的 组 件 来 完成 。 


调用 一 个 函数 相对 来 说 束 人 简单 直接 多 了 
需要 调用 PyObject_CallO0， 提 供给 它 可 调用 对 象 、 
参数 元 组 以 及 一 个 可 选 的 关键 字 参 数字 典 即 可 。 要 
构建 参数 元 组 或 者 字典 ， 可 以 使 用 
Py_BuildValue()， 示 例如 下 : 























只 




















double call_func(PyObject *func, double x, double y) { 
PyObject *args; 
PyObject *kwargs; 


/* Build arguments */ 
args = Py_BuildValue("(dd)", x, y); 
kwargs = NULL; 


/* Call the function */ 
result = PyObject_Call(func, args, kwargs); 
Py_DECREF(args); 


Py_XDECREF(Kwargs ) ， 


如 上 述 代 码 所 示 ， 如 果 没 有 关键 字 参 数 ， 那 么 
可 以 传 NULL。 在 完成 函数 调用 后 ， 需 要 确保 使 用 
Py_DECREF() 或 者 Py_XDECREF() 来 清理 参数 。 后 
者 可 安全 地 接受 NULL 指 针 《〈 会 忽略 掉 ) ， 这 也 是 
为 什么 我 们 用 它 来 清理 可 选 的 关键 字 参 数 。 


在 调用 了 Python 函数 后 ， 儿 须 检查 是 否 有 异 各 
出 现 。PyErr_OccurredO 函 数 可 以 用 来 完成 这 个 任 
务 。 比 较 环 手 的 地 方 在 于 知道 如 何 去 啊 应 异 第 。 
为 我 们 工作 在 C 语 言 的 环境 中 ， 人 缺少 Python 所 拥有 
的 异 第 机 制 。 因 此 ， 需 要 设 定 错误 状态 码 ， 对 错误 
做 日 志 记 录 ， 或 者 去 做 一 些 明 入 的 处 理 。 在 我 们 的 
解决 方案 中 ， 由 于 没有 更 加 简单 的 答 代 方案 ， 因 此 
直接 调用 了 abort()( 此 外 ，C 语 言 的 拥护 者 也 会 更 
欣赏 这 种 直接 让 程序 骨 尝 的 方案 ) 。 






































/* Check for Python exceptions (if any) */ 
if (PyErr_Occurred()) { 

PyErr_Print(); 

goto fail; 
} 


fail: 
PyGILState Release(state); 
abort(); 





从 调用 的 Python 函数 的 返回 值 中 提取 出 信息 ， 
一 般 来 说 需要 涉及 菜 种 类 型 检查 和 提取 值 的 过 程 。 
要 做 到 这 点 ， 可 能 必须 用 到 Python concrete 对 象 层 

Chttps://docs. python.org/3/c-api/concrete.html ) 中 
的 函数 。 在 解决 方案 中 ， 我 们 使 用 了 
PyFloat_Check()#/Py_Float_AsDouble() ef BOK ti A 
并 提取 出 Python 浮 点 数 。 


关于 从 C 中 调用 Python， 最 后 一 个 环 手 的 部 分 
在 于 管理 Python 的 全 局 解释 器 锁 〈GIL) 。 每 当 从 C 
中 访问 Python 时 ， 需 要 保证 对 GIL 做 合适 的 获取 和 
释放 动作 。 人 否则 ， 允 会 有 Python 解释 堪 破 坏 了 数据 
或 者 朋 涡 的 风险 。 调 用 PyGILState_Ensure() 和 
PyGILState_Release() 可 人 确保 正确 地 完成 这 些 步 又 : 





double call func(PyObject *func, double x, double y) { 


double retval; 


/* Make sure we own the GIL */ 
PyGILState_STATE state = PyGILState_Ensure(); 


/* Code that uses Python C API functions */ 


/* Restore previous GIL state and return */ 
PyGILState_Release(state); 
return retval; 


fail: 
PyGILState_Release(state); 
abort(); 

} 


调用 PyGILState_Ensure0) 成 功 后 ， 将 总 是 保证 
调用 线程 对 Python 解释 堪 享 有 独占 访问 权 。 甚 至 当 
调用 的 C 代 人 码 正 在 运行 着 为 一 个 对 Python 解 释 器 来 
说 未 知 的 线程 时 也 是 如 此 。 此 时 ，C 代 码 可 自由 使 
用 任何 想 调 用 的 Python C-API 函 数 了 。 当 成 功 返 回 
时 ， 使 用 PyGILState_Release() 来 将 解释 器 恢复 到 它 
原来 的 状态 。 


要 重点 提 到 的 是 ， 每 个 PyGILState_Ensure() 调 
用 必须 跟 痢 一 个 匹配 的 PyGILState_ReleaseO 调 用 
一 一 其 至 在 出 现 错误 的 情况 下 也 必须 如 此 。 在 解决 
方案 中 ， 我 们 使 用 的 goto 语 句 可 能 看 起 来 是 种 糟 料 
的 设计 ， 但 是 实际 上 我 们 利用 它 来 将 控制 流 跳 转 到 
一 个 公共 的 退出 语句 块 中 ， 在 那里 执行 这 个 必要 的 
步骤 。 可 以 把 fail: 标 俭 后 的 代码 想象 成 Python 中 的 
finally: 语 句 块 ， 它 们 的 作用 和 目的 是 一 样 的 。 


如 果 我 们 编写 的 C 代 码 使 用 了 所 有 这 些 约定 ， 
包括 管理 GIL、 检 和 碍 异常 以 及 对 错误 的 彻底 检查 ， 
将 会 发 现 我 们 能 够 以 可 菲 的 方式 从 C 中 调用 Python 
解释 器 一 一 即使 在 使 用 了 高 级 编程 技术 《比如 多 线 
程 ) 的 复杂 程序 中 也 是 如 此 。 




















15.7 在 C 扩 展 模 块 中 释放 GIL 
15.7.1 问题 
我 们 希望 自己 的 C 扩 展 代码 能 够 同 其 他 的 线程 


一 起 在 Python 解释 器 中 并 发 运行 。 要 做 到 这 点 ， 需 
要 释放 并 重新 获取 全 局 解释 器 锁 (GIL) 。 


15.7.2 ”解决 方案 


在 C 扩 展 代码 中 ， 可 以 通过 插入 下 列 宏 来 释放 
并 重新 获取 GIL: 


#include "Python.h" 
PyObject *pyfunc(PyObject *self, PyObject *args) { 


Py _BEGIN_ALLOW_THREADS 
// Threaded C code. Must not use Python API functions 


Py _END_ALLOW_THREADS 


return result; 





15.7.3 phir 


GIL 只 能 在 一 种 情况 下 被 安全 的 释放 ， 即 ， 如 
果 可 以 保证 在 C 代 码 中 不 执行 任何 Python C APIK 
数 。 典 型 的 例子 驶 是 在 计算 密集 型 代码 中 对 C 数 组 
执行 计算 时 《例如 在 numpy 这 样 的 扩展 模块 中 ) 或 
者 在 执行 阻 帮 式 IO 操作 的 代码 中 《例如 在 文件 摘 
述 符 上 执行 谈 取 或 写 入 操作 时 ) 。 


因为 GIL 的 释放 ， 其 他 Python 线程 就 允许 在 解 
释 器 中 执行 了 。 宏 Py_END_ALLOW_THREADS 会 
了 胆 窒 执 行 ， 直 到 调用 线程 重新 获取 到 GIL 为 止 。 


15.8 ”混合 使 用 C 和 了 Python 环境 中 
的 线程 


15.8.1 问题 


我 们 的 程序 中 混合 了 C、Python 和 线程 ， 但 是 
其 中 有 些 线程 是 在 C 环 境 中 创建 的 ， 不 受 Python 解 
释 堪 的 控制 。 此 外 ， 还 有 一 些 特定 的 线程 使 用 了 
Python C API 中 的 函数 。 





15.8.2 ”解决 方案 


MAH FRC, Python 和 线程 混合 在 一 起 使 
用 ， 需 要 确保 以 恰当 的 方式 初始 化 和 管理 Python 的 
eae Rah CGIL) 。 要 做 到 这 点 ， 可 以 在 C 代 
a 并 确保 在 创建 任何 线程 之 前 
WHE: 





#include <Python.h> 


if 


(!PyEval_ThreadsInitialized()) { 
PyEval_InitThreads(); 


| 


对 于 任何 涉及 Python 对 象 或 者 Python C API 的 C 
代码 ， 首 先 需 要 保证 以 合适 的 方式 获取 和 释放 
GIL。 这 可 以 通过 PyGILState_Ensure() 和 
PyGILState_Release() 来 做 到 ， 示 例如 下 : 








/* Make sure we own the GIL */ 


PyGILState_STATE state = PyGILState_Ensure(); 


/* Use functions in the interpreter */ 


/* Restore previous GIL state and return */ 


PyGILState_Release(state); 





每 一 个 PyGILState_Ensure() 调 用 都 必须 有 一 个 
配对 的 PyGILState_Release()。 


15.8.3 ”讨论 





在 涉及 C 和 Python 的 高 级 应 用 中 ， 让 许多 事情 
同时 运行 的 情况 并 非 不 常见 一 一 很 可 能 会 涉及 C 代 
人 码 、Python 代 人 码 、C 线 程 以 及 Python 线 程 。 只 要 保 
证 Python 解 释 器 经 过 恰当 的 初始 化 量 涉 及 解释 器 相 
C 代 人 码 能 够 管理 好 GIL， 那 么 就 可 以 正常 工 








请 注意 PyGILState_Ensure() 并 不 会 立刻 抢占 或 
中 汤 解 释 占 。 如 果 其 他 代码 正在 执行 中 ， 这 个 函数 
将 阻 窄 直到 其 他 代码 决定 释放 GIL 为 止 。 在 内 部 ， 
Python 解 释 器 会 周期 性 地 切换 线程 ， 因 此 即使 男 一 
个 线程 正在 执行 ， 调 用 方 最 终 依然 会 得 到 运行 〈 尽 
管 可 能 先 要 等 竺 一会儿 ) 。 











15.9 ”用 Swig 来 包装 C 代 码 
15.9.1 问题 

我 们 想 将 已 有 的 C 代 码 作 为 C 扩 展 模 块 来 访 
问 。 我 们 想 通 过 Swig Chttp://www.swig.org ) 来 实 
现 这 一 目标 。 
15.9.2 RIR 

Swig 可 以 解析 C 头 文件 并 目 动 创建 出 扩展 代码 


来 。 要 使 用 这 个 工具 ， 首 先 需 要 有 一 个 C 头 文件 。 
例如 ， 下 面 这 个 头 文件 就 可 用 于 我 们 的 示例 代码 : 





/* sample.h */ 


#include <math.h> 
extern int 


gcd(int 


, int 


1 
extern int 


in_mandel(double 


x0, double 


yO, int 


n); 
extern int 


divide(int 


*remainder ); 
extern double 


avg(double 


n); 


typedef struct 


Point { 
double 


X,Y; 
} Point; 


extern double 


distance(Point *p1, Point *p2); 








一 旦 有 了 头 文件 ， 下 一 步 束 是 编写 一 个 
Swig“ 接 口 ” 文 件 。 根 据 约定 ， 这 些 接口 文件 都 以 .; 
作为 后 级 ， 看 起 来 类 似 于 这 样 : 








// sample.i - Swig interface 


%module sample 

%{ 

#include "sample.h" 
%} 


/* Customizations */ 


%extend Point { 
/* Constructor for Point objects */ 


Point (double 


x, double 


y) {í 


Point *p = (Point *) malloc(sizeof 


(Point) ) ， 


p->x = X; 
p->y = y; 
return 


p; 
}; 


}; 


/* Map int *remainder as an output argument */ 


%include typemaps.i 
%apply int 


*OUTPUT { int 


* remainder }; 


/* Map the argument pattern (double *a, int n) to arrays */ 


%typemap(in) (double 


*a, int 


n)(Py_buffer view) { 
view.obj = NULL; 
if 


(PyObject_GetBuffer($input, &view, PyBUF_ANY_CONTIGUOUS | PyBUF_ 
SWIG_fail; 


} 
if 


(strcmp(view.format,"d") != 0) { 
PyErr_SetString(PyExc_TypeError, 
SWIG_fail; 

} 
$1 = (double 


*) view.buf; 
$2 = view.len / sizeof 


(double 


); 
} 


%typemap(freearg) (double 


n) { 
if 


(view$argnum.obj) { 
PyBuffer_Release(&view$argnum); 
} 
} 


"Expected an array of doubl 


/* C declarations to be included in the extension module */ 


extern int 


gcd(int 


, int 


); 


extern int 


in_mandel(double 


x0, double 


yO, int 


n); 
extern int 


divide(int 


*remainder ); 
extern double 


avg(double 


n); 


typedef struct 


Point { 
double 


extern double 


distance(Point *p1, Point *p2); 





一 旦 编写 好 了 这 个 接口 文件 ，Swig 束 可 以 作为 
命令 行 工 具 在 终端 中 调用 了 : 


bash % swig -python -py3 sample.i 
bash % 


Swig 会 产生 两 个 文件 : sample_wrap.c 和 
sample.py 。 后 者 是 用 户 用 来 导入 
的 。sample_wrap.c 文件 是 C 程 序 源 代码 ， 需 要 将 其 
编译 到 一 个 支撑 模块 _sample 中 。 这 和 普通 的 扩展 
模块 所 采用 的 技术 一 样 。 例 如 ， 要 像 这 样 创建 一 
个 setup.py 文件 : 




















# setup.py 


from distutils.core import 


setup, Extension 


setup(name='sample', 
py_modules=['sample.py'], 
ext_modules=[ 
Extension('_sample', 

['sample_wrap.c'], 
include_dirs = [], 
define_macros = [], 
undef_macros = [], 
library_dirs = [], 


libraries = ['sample' | 


) 





要 编译 和 测试 ， 只 要 针对 setup.py 文件 运行 
python38H 可 : 


bash % python3 setup.py build_ext --inplace 
running build_ext 
building '_sample' extension 
gcc -fno-strict-aliasing -DNDEBUG -g -fwrapv -03 -Wall -Wstrict- 
-I/usr/local/include/python3.3m -c sample_wrap.c 

-0 build/temp.macosx-10.6-x86_64-3.3/sample_wrap.o 
sample_wrap.c: In function 


‘SWIG_InitializeModule’: 

sample_wrap.c:3589: warning: statement with no effect 

gcc -bundle -undefined dynamic_lookup build/temp.macosx-10.6-x86 
build/temp.macosx-10.6-x86_64-3.3/sample_wrap.o -o _sample.so - 
bash % 





如 果 一 切 顺利 ， 会 发 现 现在 能 够 直接 使 用 得 到 


的 C 扩 展 模块 了 ， 示 例如 下 : 


>>> import sample 


>>> sample.gcd(42,8) 

2 

>>> sample.divide( 42,8) 
[5, 2] 

>>> p1 = sample.Point(2,3) 
>>> p2 = sample.Point(4,5) 
>>> sample.distance(pi, p2) 
2 .8284271247461903 


>>> import array 


>>> a = array.array('d',[1,2,3]) 
>>> sample.avg(a) 





15.9.3 ”讨论 


Swig 是 用 来 构建 扩展 模块 的 最 古老 的 工具 之 
一 ， 时 间 要 追溯 到 Python 1.4 时 期 。 但 是 ， 目 前 的 
版 本 已 经 开始 对 Python 3 提供 支持 了 。Swig 的 主要 
用 途 是 使 用 Python 作为 高 层 控制 语言 来 访问 已 有 的 
大 型 C 代 码 库 。 例 如 ， 用 户 的 C 代 码 中 可 能 包含 了 























上 于 个 函数 以 及 各 式 各 样 的 数据 结构 ， 而 用 户 和 希望 
通过 Python 来 访问 它们 。 大 部 分 生成 包装 函数 的 过 
程 都 可 以 用 Swig 来 自动 化 进行 。 


所 有 的 Swig 接 口 都 有 看 如 下 的 简短 开头 : 





%module sample 
%{ 


#include "sample.h" 





这 仅仅 只 是 声明 了 扩展 模块 的 名 称 ， 而 且 指定 
了 必须 要 包含 在 内 才能 让 所 有 组 件 通过 编译 的 C 头 
文件 〈 包 在 %{ 和 9%} 之 间 的 代码 会 二 接 粘 贴 到 输出 
的 代码 文件 中 ， 因 此 为 了 能 编译 通过 ， 要 将 所 有 需 
要 包含 的 头 文件 和 其 他 的 定义 都 放置 在 这 里 ) 。 


Swig 接 口 文件 的 底部 是 一 些 想 包含 在 扩展 模块 
HAC Rs AA sh. HEI ay AY DA Ee MS cE ee D 
过 来 。 在 我 们 的 示例 中 ， 我 们 是 直接 从 头 文 件 中 粘 
贴 过 来 的 : 














%module sample 
% 


#include "sample.h" 
%} 


extern int 


gcd(int 


, int 


); 


extern int 


in_mandel(double 


x0, double 


yO, int 


n); 
extern int 


divide(int 


*remainder ); 
extern double 


avg(double 


n); 


typedef struct 


Point { 
double 


X,Y; 
} Point; 


extern double 


distance(Point *p1, Point *p2); 











要 重点 强调 的 是 这 些 声明 却 就 是 在 告诉 Swig 你 





希望 包含 在 Python 模 块 中 的 内 容 。 对 声明 列表 做 适 
当 的 修改 和 编辑 是 很 常见 的 。 比 如 ， 如 果 不 想 包含 
茶 些 特定 的 声明 式 ， 可 以 从 声明 列表 中 将 它们 移 
除 。 


使 用 Swig 最 复杂 的 部 分 在 于 它 可 以 对 C 代 人 码 做 
各 种 各 样 的 定制 化 处 理 。 这 是 个 庞大 的 主题 不 可 能 
在 这 里 涵盖 所 有 细节 ， 但 是 本 节 中 也 展示 了 几 个 这 
样 的 定制 化 处 理 。 


第 一 个 定制 化 处 理 涉及 %extend 指 令 ， 它 允许 
将 方法 关联 到 已 有 的 结构 体 和 类 定义 中 。 在 示例 
中 ， 我 们 使 用 这 个 技术 给 Point 结 构 体 添加 了 一 个 构 
a lili 
为 可 能 : 

















>>> p1 = sample.Point(2,3) 
>>> 


如 果 和 忽略 这 一 步 ， 那 么 Point 对 象 就 需要 以 更 加 
复杂 的 方式 来 创建 了 : 


>>> # Usage if %extend Point is omitted 


>>> p1 = sample.Point() 





第 二 个 定制 化 处 理 涉 及 包含 typemaps.i 库 ， 以 
及 对 %apply 指 令 的 使 用 。%apply 指 令 告诉 Swig 参 数 
签名 int remainder 应 该 被 看 做 是 一 个 输出 值 。 这 实 
际 上 是 一 个 模式 匹配 规则 。 在 后 面 所 有 的 声明 式 
中 ， 只 要 遇 到 了 intremainder， 那 么 就 把 它 当 做 输 
出 处 理 。 这 个 定制 化 处 理 使 得 divide0 函 数 可 以 返回 
两 个 值 : 


>>> sample.divide(42,8) 





最 后 一 个 定制 化 处 理 涉 及 对 %typemap 指 令 的 
使 用 ， 这 也 许 是 本 节 上 所 展示 的 最 高 级 的 功能 了 。 
typemap 就 是 一 种 规则 ， 可 作用 于 输入 中 特定 的 参 
数 檬 式 上 。 在 本 节 中 ， 我 们 已 经 编写 了 一 个 
typemap 来 瑟 配 形式 为 (double *a, int n) 这 样 的 参数 
模式 。 在 typemap 内 部 是 一 段 C 代 人 码 ， 用 来 告诉 Swig 
如 何 去 把 一 个 Python 对 象 转换 为 相关 的 C 参 数 。 本 
节 给 出 的 代码 中 使 用 了 Python 中 的 puffer 协 议 ， 用 来 
对 任何 看 起 来 像 是 double 数 组 的 输入 参数 做 匹配 

( 即 ，NumPy 数 组 、 由 array 模 块 创 建 的 数组 等 ) 。 
对 数组 的 操作 可 参见 15.3 市 。 


在 typemap 代 人 码 中 ， 类 似 像 $1 和 $2 这 样 的 蔡 换 
从 用 来 代表 变量 ， 这 些 变 量 你 存 着 在 typemap 模 式 
中 经 过 转换 的 C 参 数 的 值 〈 例 如 ，$1 会 映射 为 
double a， 而 g2 会 映射 为 ptn) 。$input 表 示 一 个 
PyObject 参数 ， 它 作为 输入 参数 。$argument 则 表示 
参数 的 个 数 。 


编写 和 理解 typemap 第 第 成 为 程序 员 使 用 Swig 
的 最 大 障碍 。 不 仅 因 为 这 种 代码 相当 隐 上 临 ， 而 且 需 
要 我 们 同时 对 Python C API 以 及 Swig 与 它们 交互 的 
方式 的 复杂 细节 有 着 很 好 的 理解 。Swig 的 文档 中 有 
更 多 的 示例 和 详细 的 信息 。 


然而 ， 如 果 有 许多 C 代 码 需 要 以 扩展 模块 的 方 












































式 暴 露 给 Python， 则 Swig 可 以 成 为 一 件 非常 得 力 的 
工具 。 需 要 牢记 的 关键 点 就 是 Swig 基 本 上 就 古 一 个 
用 来 处 理 C 语 言 声 明 的 编译 器 ， 但 是 还 有 着 强大 的 
模式 匹配 以 及 定制 化 组 件 ， 能 让 我 们 对 特定 的 声明 
和 类 型 的 处 理 方式 做 出 改变 。 更 多 信息 可 在 Swig 
的 网 站 (http://www.swig.org ) 以 及 特定 于 Python 
的 文档 Chttp://www.swig.org/Doc2.0/Python.html ) 
中 找到 。 











15.10 ”用 Cython 来 包装 C 代 三 
15.10.1 问题 


我 们 想 用 Cython 来 创建 一 个 Python 扩展 模块 ， 
用 来 包装 一 个 已 有 的 C 库 。 





15.10.2 ”解决 方案 


从 某 种 程度 上 来 看 ， 用 Cython 创 建 一 个 扩展 模 
块 和 手动 编写 扩展 模块 有 些 相 似 。 它 们 都 需要 我 们 
创建 一 组 包装 函数 。 但 是 与 前 几 节 不 同 的 是 ， 我 们 
不 必 上 再 用 C 来 完成 这 些 事情 了 一 一 现在 使 用 的 代码 
看 起 来 非 第 像 Python。 


提前 说 明 ， 假 设 本 草 介 绍 部 分 给 出 的 示例 代码 
已 经 被 编译 为 C 库 ， 名 称 为 libsample。 我 们 首先 创 
建 一 个 名 为 csample.pxd 的 文件 ， 它 看 起 来 是 这 样 
的 : 
































# csample.pxd 


# Declarations of "external" C functions and structures 


cdef extern from "sample.h": 
int gcd(int, int) 
bint in_mandel(double, double, int) 
int divide(int, int, int *) 
double avg(double *, int) nogil 
ctypedef struct Point: 
double x 
double y 


double distance(Point *, Point *) 








这 个 文件 在 Cython 中 的 目的 和 作用 就 相当 于 一 
个 C 头 文件 。 文 件 中 最 开始 的 声明 cdef extern from 





"sample.h" 声 明了 所 需 的 C 头 文件 。 后 面 跟着 的 声明 
都 是 取 上 自 那 个 C 头 文件 中 。 这 个 文件 的 名 称 

是 csample.pxd ， 不 是 sample.pxd 这 一 点 很 重 
要 。 











接 下 来 ， 创 建 一 个 名 为 sample.pyx 的 文件 。 这 
个 文件 将 定义 包装 函数 ， 作 为 Python 解释 器 
到 csample.pxd 文件 中 定义 的 底层 C 代 人 码 之 间 的 桥 
Be, 


# sample.pyx 


# Import the low-level C declarations 


Cimport csample 


# Import some functionality from Python and the C stdlib 


from cpython.pycapsule cimport 


* 


from libc.stdlib cimport malloc 


, free 


# Wrappers 


def 


gcd(unsigned int x, unsigned int y): 
return 


csample.gcd(x, y) 


def 


in_mandel(x, y, unsigned int n): 
return 


csample.in_mandel(x, y, n) 


def 


divide(x, y): 
cdef int rem 
quot = csample.divide(x, y, &rem) 
return 


quot, rem 
def 
avg(double[:] a): 
cdef: 
int sz 
double result 
SZ = a.size 


with 


nogil: 
result = csample.avg(<double *> &a[0], sz) 
return 


result 


# Destructor for cleaning up Point objects 


cdef del_Point(object obj): 
pt = <csample.Point *> PyCapsule_GetPointer(obj, "Point" ) 
free(<void *> pt) 


# Create a Point object and return as a capsule 


def 


Point(double x,double y): 
cdef csample.Point *p 
p = <csample.Point *> malloc(sizeof(csample.Point) ) 
if 


p == NULL: 
raise MemoryError 


("No memory to make a Point") 


p.X =X 
p.y =y 
return 


PyCapsule_New(<void *>p,"Point",<PyCapsule Destructor>del_Point ) 
def 
distance(p1i, p2): 

pti = <csample.Point *> PyCapsule_GetPointer(p1i, "Point" ) 


pt2 = <csample.Point *> PyCapsule_GetPointer(p2,"Point") 
return 


csample.distance(pt1, pt2) 








有 关 这 个 文件 的 各 种 细节 将 在 讨论 部 分 做 进 一 
步 的 说 明 。 最 后 ， 要 构建 出 扩展 模块 ， 需 要 创建 一 











个 setup.py 文件 ， 看 起 来 是 这 样 的 : 


from distutils.core import 


Setup 
from distutils.extension import 


Extension 
from Cython.Distutils import 


build ext 


ext_modules = [ 

Extension('sample', 
['sample.pyx'], 
libraries=['sample'], 
library_dirs=['.'])] 


setup( 
name = 'Sample extension module', 
cmdclass = {'build_ext': build_ext}, 
ext_modules = ext_modules 


) 





要 构建 出 最 后 的 结果 用 于 实验 ， 在 终端 中 键入 
如 下 命令 : 


bash % python3 setup.py build_ext --inplace 

running build_ext 

cythoning sample.pyx to sample.c 

building 'sample' extension 

gcc -fno-strict-aliasing -DNDEBUG -g -fwrapv -03 -Wall -Wstrict- 
-I/usr/local/include/python3.3m -c sample.c 


-0 build/temp.macosx-10.6-x86_64-3.3/sample.o 

gcc -bundle -undefined dynamic_lookup build/temp.macosx-10.6-x86 
-L. -lsample -o sample.so 

bash % 








如 果 一 切 顺 利 ， 现 在 应 该 有 一 个 名 为 sample.so 
的 扩展 模块 了 ， 可 以 像 下 列 示 例 中 那样 使 用 : 


>>> import sample 


>>> sample.gcd(42,10) 

2 

>>> sample.in_mandel(1,1, 400) 
False 

>>> sample.in_mandel(0, 0,400) 
True 

>>> sample.divide(42,10) 


array 


a = array.array('d',[1,2,3]) 
sample.avg(a) 


sample.Point(2,3) 
sample.Point(4,5) 


<capsule object "Point" at 0x1005d1e70> 
>>> p2 

<capsule object "Point" at 0x1005d1ea0> 
>>> sample.distance(pi, p2) 

2 .8284271247461903 

>>> 





15.10.3 ”讨论 


本 市 包含 了 一 些 在 前 面 章 市 中 讨论 过 的 避 级 特 
性 ， 这 包括 操作 数组 、 包 装 不 透明 指针 以 及 释放 


GIL。 这 些 部 分 在 本 市 中 会 依次 进行 讨论 ， 但 我 们 
先 回 顾 一 下 前 面 的 章节 。 


从 高 层 来 看 ，Cython 是 用 来 模仿 C 的 。.pxd 文 
件 仅 仪 只 是 包含 了 C 中 的 声明 (和 C 中 的 .h 文件 类 
似 ) ， 而 .pyx 文件 包含 了 实现 (类似 于 .c L) - 
Cython 中 的 cimport 语 句 用 来 从 .pxd 文件 中 导入 声 
明 。 这 和 使 用 普通 的 Python import 语 句 有 所 不 同 ， 
在 Python 中 这 会 加 载 一 个 正常 的 Python 模 块 。 


尽管 .pxd 文件 包含 了 声明 ， 但 它们 并 不 是 用 来 
目 动 产生 扩展 代码 的 。 因 此 ， 我 们 仍然 必须 编写 简 
单 的 包装 函数 。 例 如 ， 尺 管 csample.pxd 文件 声明 了 
pki tint gcd(int, int)， 我 们 仍然 需要 在 sample.pyx 中 
编写 一 个 包装 函数 。 示 例如 下 : 














cimport csample 


def 


gcd(unsigned int x, unsigned int y): 
return 


csample.gcd(x,y) 








对 于 简单 的 函数 ， 要 做 的 事情 并 不 会 太 多 。 


Cython 会 产生 包装 代码 对 参数 和 返回 值 做 适当 的 转 
换 。 关 联 a 到 参数 上 的 C 数 据 类 型 是 可 选 的 。 但 是 ， 
如 果 包 含 了 它们 ， 不 用 花 任何 代价 就 能 获得 额外 的 
错误 检查 。 例 如 ， 如 果 有 人 用 负数 做 参数 来 调用 这 
个 函数 ， 那 么 就 会 产生 一 个 寞 音 : 





>>> sample.gcd(-10, 2) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
File "sample.pyx", line 7, in sample.gcd (sample.c:1284) 


def 


gcd(unsigned int x,unsigned int y): 
OverflowError: can't convert negative value to unsigned int 
>>> 





如 果 想 给 包装 函数 添加 额外 的 检查 机 制 ， 只 要 
再 增加 包装 的 代码 即 可 。 示 例如 下 : 





def 


gcd(unsigned int x, unsigned int y): 
if 


raise ValueError 


("x must be > 0") 
if 


y <= 0: 
raise ValueError 


("y must be > 0") 
return 


csample.gcd(x,y) 





在 csample.pxd 文件 中 声明 的 in_mandel0 有 一 个 





有 趣 但 不 太 明 显 的 地 方 。 在 那个 文件 中 ， 荫 数 被 声 
明 为 返回 一 个 bint 而 不 是 int。 这 使 得 函数 会 创建 一 
个 合适 的 布尔 值 而 不 是 一 个 简单 的 整 型 值 。 因 此 ， 
返回 值 0 会 被 映射 为 False， 而 1 会 对 应 True。 


在 Cython 包 装 函 数 内 ， 除 了 可 以 使 用 所 有 普通 
的 Python 对 象 外 ， 还 可 以 选择 声明 C 数 据 类 型 。 
divide() 的 包装 函数 束 展 示 了 这 样 一 个 用 法 ， 也 演示 
了 如 何 处 理 指针 参数 。 





def 


divide(x,y): 
cdef int rem 
quot = csample.divide(x,y,&rem) 
return 


quot, rem 


这 里 ， 变 量 rem 被 显 式 声 明 为 C 语 言 中 的 int 变 
量 。 当 传递 给 下 面 的 divide0 函 数 时 ，&rem 就 表示 
指向 rem 的 指针 ， 这 和 C 语 言 中 的 表达 方式 一 致 。 


avg() 函数 的 代码 则 说 明了 Cython 中 一 些 更 加 高 
级 的 功能 。 首 先 ， 声 明 式 def avg(double[:] a) 将 avg( 
声明 为 = 受 一 个 一 维 double 值 的 内 存 视 图 
(memoryview) 。 令 人 惊讶 的 地 方 在 于 这 使 得 avg 
为 数 将 接受 任意 一 种 兼容 的 数组 对 象 包括 那些 由 
numpy 库 所 创建 的 数组 也 是 如 此 。 示 例如 下 : 











>>> import array 


>>> a = array.array('d',[1,2,3]) 
>>> import numpy 


>>> b = numpy.array([1., 2., 3.]) 
>>> import sample 


>>> sample.avg(a) 
2.0 
>>> sample.avg(b) 
2.0 
>>> 


在 包装 函数 中 ，a.size 和 &a[0] 分 别 表 示 数 组 元 
素 的 个 数 以 及 指向 数组 的 指针 。 语 法 <double *> 
&a[0] 可 以 让 我 们 在 必要 的 时 候 对 指针 类 型 进行 转 
换 。 需 要 保证 C 中 的 avgO0 函 数 接 受 的 是 类 型 正确 的 
和 针 。 下 一 节 中 会 介绍 一 些 有 关 Cython 中 内 存 视图 
的 高 级 用 法 。 


除了 同和 常规 数组 打交道 外 ，avg0 的 示例 也 展示 
了 如 何 同 全 局 解释 器 馈 (GIL) 打交道 。 语 句 with 
nogil: 声 明了 一 个 代码 块 ， 表 示 执 行 时 不 持 有 GIL。 
在 语句 块 内 部 ， 使 用 任何 普通 的 Python 对 象 都 是 非 
法 的 只 有 声明 为 cdef 的 对 象 和 函数 可 以 使 用 。 
除 此 之 外 ， 外 部 函数 必须 显 式 声明 为 可 以 不 持 有 
GIL 执 行 。 因 此 ， 在 csample.pxd 文件 中 函数 avg0) 被 
声明 为 double avg(double *, int) nogil。 


对 结构 体 Point 的 处 理 则 市 来 了 特殊 的 挑战 。 如 
前 文 所 示 ， 本 节 使 用 capsule 对 象 将 Point 对 象 当 做 不 
透明 指针 来 处 理 ， 这 部 分 内 容 在 15.4 节 中 已 有 说 
明 。 但 是 ， 要 做 到 这 上 点， 底层 的 Cython 代 码 束 要 更 
加 复杂 一 点 。 首 先 ， 下 和 面 这 些 导 入 语句 是 用 来 从 C 
库 和 Python C API 中 引入 函数 定义 : 


from cpython.pycapsule cimport * 
from libc.stdlib cimport malloc, free 














pO 


函数 del_PointO0 和 了 PointO 使 用 导入 的 函数 来 创 

哇 一 个 capsule 对 象 用 来 包装 Point * 指 针 。 声 明 式 
cdef del _PointO 把 del _PointO 声 明 为 一 个 只 能 从 
Cython 而 不 是 Python 中 访问 的 函数 。 因 而 ， 这 个 函 
数 对 外 部 是 不 可 见 的 相反 ， 它 作为 回调 函数 来 
清理 由 capsule 对 象 占用 的 内 存 空间 。 对 
PyCapsule_New() 和 PyCapsule_GetPointer() 的 调用 是 
直接 从 Python C API 中 得 来 的 ， 使 用 方法 一 样 。 


distance0O 函 数 会 从 由 PointO 中 创建 出 的 capsule 
对 象 里 提取 出 指针 。 这 里 值得 注意 的 是 我 们 不 必 担 
心 异 党 处 理 的 问题 。 如 有 末 传 递 了 一 个 不 正确 的 对 
象 ，PyCapsule_GetPointer() 会 产生 一 个 异常 ， 但 是 
Cython 会 去 查找 异常 并 将 其 传播 到 distance() 外 部 。 


在 这 个 解决 方案 中 ， 对 Point 结 构 体 的 处 理 缺 点 
在 于 这 完全 是 不 透明 的 。 我 们 无 法 得 看 或 访问 任何 
属性 。 下 面 还 有 一 个 丛 代 方案 ， 怠 是 定义 一 个 扩展 
类 型 ， 示 例如 下 : 




















# sample.pyx 


cimport csample 


from libc.stdlib cimport malloc 


, free 


cdef class Point 


cdef csample.Point *_c_point 
def 


__cinit__(self, double x, double y): 
self._c_point = <csample.Point *> malloc(sizeof(csample. 
self._c_point.x = x 
self._c_point.y = y 


def 


__dealloc__(self): 
free(self._c_point) 


property x: 
def 
__get__(self): 
return 


self. _c_point.x 
def 


set (self, value): 
self. c point.x = value 


property y: 
def 


__get__(self): 
return 


self._c_point.y 
def 


__set__(self, value): 
self._c_point.y = value 


def 


distance(Point pi, Point p2): 
return 


csample.distance(p1._c_point, p2._c_point) 





IX FA, cdef class Point 将 Point 声 明 为 一 个 扩展 
类 型 。 类 变量 cdef csample.Point *_c_point 用 来 保存 
指 问 压 层 C 代 码 中 Point 结 构 体 的 指针 。__cinit OM 

dealloc _ 0 方法 使 用 malloc() 和 freeO) 调 用 来 创建 和 





销毁 底层 的 C 结 构 体 。property x 和 property y 声 明 让 

代码 可 以 对 底层 的 结构 体 属性 进行 get 和 和 set 操作 。 

distance0O 的 包装 函数 也 被 适当 地 修改 为 接受 Point 厅 - 
但 是 会 传递 底层 的 指针 给 C 


做 了 这 样 的 修改 ， 会 友 现 现在 用 来 操作 Point 对 











象 的 代码 会 更 加 目 然 些 ; 


>>> import sample 


>>> p1 
>>> p2 
>>> p1 
<sample.Point object at 0x100447288> 
>>> p2 

<sample.Point object at 0x1004472a0> 


sample.Point(2,3) 
sample.Point(4,5) 


>>> sample.distance(p1, p2) 
2.8284271247461903 
>>> 





本 节 介 绍 了 许多 Cython 的 核心 功能 ， 我 们 可 以 
将 它们 应 用 到 情况 更 加 复杂 的 包装 处 理 上 。 可 以 肯 
定 的 是 ， 要 想 实现 更 多 功能 ， 一 定 要 去 看 看 官方 文 
档 (http://docs.cython.org ) 。 


接 下 来 的 几 节 同样 会 介绍 一 些 额外 的 Cython 功 
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15.11 用 Cython 来 高 效 操作 数组 
15.11.1 问题 


我 们 想 编 写 一 些 用 来 处 理 数 组 的 高 性 能 函数 ， 
把 它们 作用 在 类 似 NumPy 这 样 的 库 创 建 的 数组 上 。 
我 们 听 说 像 Cython 这 样 的 工具 会 让 这 个 过 程 变 得 简 
单 ， 但 是 不 确定 该 如 何 去 做 。 





15.11.2 解决 方案 


作为 示例 ， 下 面 的 代码 展示 了 一 个 用 来 对 一 维 
double 数 组 元 素 进行 修改 的 函数 : 


# sample.pyx (Cython) 
Cimport cython 
@cython.boundscheck(False) 


@cython.wraparound(False) 
cpdef clip(double[:] a, double min, double max, double[:] out): 


Clip the values in a to be between min and max. Result in ou 





if min > max: 

raise ValueError("min must be <= max") 
if a.shape[0] != out.shape[0]: 

raise ValueError("input and output arrays must be the sa 
for i in range(a.shape[0]): 

if a[i] < min: 

out[i] = min 
elif a[i] > max: 


out[i] = max 
else: 
out[i] = a[i] 





要 编译 并 构建 这 个 扩展 函数 ， 需 要 一 个 下 面 这 
样 的 setup.py 文件 〈 使 用 命令 python3 setup.py 
build ext --inplace 来 构建 ) : 


from distutils.core import setup 
from distutils.extension import Extension 
from Cython.Distutils import build_ext 


ext_modules = [ 
Extension('sample', 
['sample.pyx']) 
] 


setup( 
name = 'Sample app', 
cmdclass = {'build_ext': build_ext}, 
ext_modules = ext_modules 


) 
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改 ， 而 且 可 以 用 于 许多 不 同类 型 的 数组 对 象 。 例 
如 : 





>>> # array module example 

>>> import sample 

>>> import array 

>>> a = array.array('d',[1,-3,4,7,2,0]) 
>>> a 


array('d', [1.0, -3.0, 4.0, 7.0, 2.0, 0.0]) 
>>> sample.clip(a,1,4,a) 

>>> a 

array('d', [1.0, 1.0, 4.0, 4.0, 2.0, 1.0]) 


>>> # numpy example 

>>> import numpy 

>>> b = numpy.random.uniform(-10, 10, Size=1000000 ) 

>>> b 

array([-9.55546017, 7.45599334, 0.69248932, ..., 0.69583148, 
-3.86290931, 2.37266888] ) 

>>> C = numpy.zeros_like(b) 


>>> C 

array([ 0., ©., ©., ..., ©., ©., 0.]) 

>>> sample. clip(b, -5,5 P 

>>> C 

array([-5. , 5. , 0.69248932, ..., 0.69583148, 


-3.86290931, 2.37266888]) 
>>> min(c) 
-5.0 
>>> max(c) 





同样 ， 我 们 也 会 发 现 得 到 的 代码 运行 起 来 很 
快 。 在 下 面 的 交互 式 会 话 中 ， 我 们 用 这 个 实现 同 
numpy 库 中 己 有 的 dip0 函 数 进 行 了 一 场 针 锋 相 对 的 
比拼 ; 


>>> timeit('numpy.clip(b,-5,5,c)', 'from __main__ import b,c,nump 

8.093049556000551 

>>> timeit('sample.clip(b,-5,5,c)','from __main__ import b,c,saml 
number=1000 ) 


3. 760528204000366 
>>> 








可 以 看 到 ， 我 们 的 实现 要 快 上 许多 一 一 考虑 到 
NumPy 的 版 本 其 核心 是 用 C 语 言 编写 的 ， 得 出 这 样 
的 结果 真是 有 趣 。 











15.11.3 讨论 


本 节 利 用 了 Cython 中 的 类 型 化 内 存 视图 (typed 
memoryview) ， 它 极 大 地 简化 了 操作 于 数组 的 代 
fZ. i a)cpdef clip() 将 clipO 同 时 声明 为 C 和 Python 
为 数 。 在 Cython 中 这 么 做 是 很 有 用 的 ， 因 为 这 意味 
看 该 轴 数 在 其 他 Cython 函 数 中 调用 起 来 要 更 有 效率 

〈 例 如， 如果 想 从 另 一 个 不 同 的 Cython 函 数 中 调用 
加 . 


类 型 化 参数 double[:] a 以 及 double[:] out 将 这 些 
参数 声明 为 一 维 double 数 组 。 作 为 输入 ， 它 们 可 以 
访问 任何 实现 了 内 存 视图 接口 的 数组 对 象 〈《 有 关内 
存 视图 接口 ， 可 参见 PEP 3118) 。 这 包括 NumPy 以 
及 内 建 的 array 库 中 的 数组 。 


如 果 编 写 的 代码 产生 的 结果 同样 是 数组 ， 我 们 
应 该 苯 循 示例 代码 中 所 展示 的 惯例 ， 即 ， 让 一 个 参 
数 成 为 输出 参数 。 这 束 把 创建 输出 数组 的 贡 任 留 给 
了 调用 者 ， 而 实现 者 则 不 必 了 解 太 多 有 关 数 组 是 什 
么 类 型 的 上 其 体 细 市 “这 里 只 假设 数组 已 经 准备 束 
位 ， 只 需要 做 一 些 基 本 的 检查 ， 例 如 确保 它们 的 大 


























小 是 兼容 的 ) 。 在 NumPy 这 样 的 库 中 ， 使 用 
numpy.zeros() 或 者 numpy.zeros_like() 来 创建 输出 数 
组 相对 来 说 是 很 容易 的 。 或 者 ， 要 创建 未 初始 化 的 
数组 ， 可 以 使 用 numpy.empty0 或 者 
numpy.empty_like0。 如 有 条 打算 用 结果 来 履 辣 数组 内 
容 ， 这 么 做 会 稍微 更 快 些 。 


在 函数 的 实现 中 ， 只 需要 利用 索引 《例如 
ali]. outi] 编写 简单 直接 的 代码 来 处 理 数 组 即 
可 。Cython 会 采取 措施 确保 产生 高 效 的 代码 。 


位 于 clip0 定 义 之 前 的 那 两 个 装饰 器 是 用 来 做 性 
能 优化 的 可 选项 。@cython.boundscheck (False) 会 消 
除 所 有 的 数组 边界 检查 ， 如 果 已 经 知道 夫 引 不 会 越 
Ft, HARA WEE o 
@cython.wraparound(False) 在 包装 整个 数组 时 会 消 
除 针 对 下 标 为 负数 时 的 处 理 。 包 含 了 这 些 装 饰 右 能 
让 代码 的 运行 速度 显赫 提高 〈 对 于 这 个 示例 ， 我 们 
测试 的 结果 是 会 快 大 约 2.5 倍 ) 。 

每 当 同 数组 打交道 时 ， 对 底层 的 算法 做 仔细 的 
研究 和 试验 同样 也 能 获得 巨大 的 速度 提升 。 例 如 ， 
这 里 使 用 了 条 件 表 

BENE 


@cython.boundscheck(False) 
@cython.wraparound(False) 

















cpdef clip(double[:] a, double min, double max, double[:] out): 
if 


min > max: 
raise ValueError 


("min must be <= max") 
if 


a.shape[0] != out.shape[0]: 
raise ValueError 


("input and output arrays must be the same size") 
for 


range(a.shape[0]): 
out[i] = (a[i] if 


a[i] < max else 
max) if 


a[i] > min else 








测试 的 时 候 ， 这 个 版 本 的 代码 运行 速度 又 要 快 





50%% 〈 在 timeitO 测 试 中 ， 成 绩 是 2.44 秒 对 比 之 前 


的 3.76 秒 ) 。 


此 时 ， 我 们 可 能 想 知道 为 什么 这 份 代码 在 执行 
效率 上 会 力 压 手写 的 C 语 言 版 本 。 例 如 ， 也 许 我 们 
编号 了 如 下 的 C 函 数 ， 然 后 利用 前 面 几 节 中 谈 到 的 
技术 手工 编写 了 一 个 C 语 言 扩 展 版 本 : 














void 


clip(double 
*a, int 

n, double 
min, double 
max, double 


*out) { 
double 


(; n >= 0; n--, at+, OUt++) { 
X = *a; 
*out = x > max ? max : (x < min ? min : x); 


这 里 并 没有 给 出 扩展 代码 。 但 是 经 过 测试 后 ， 
我 们 发 现 手工 打造 的 C 扩 展 代 码 却 比 由 Cython 创 建 
出 的 扩展 函数 要 慢 10%。 展 线束 是 ，Cython 生 成 的 
代码 运行 速度 比 想象 的 还 要 快 很 多 。 








解决 方案 中 给 出 的 代码 还 可 以 做 几 个 扩展 。 人 针 
对 特定 类 型 的 数组 操作 ， 释 放 GIL 使 得 多 个 线程 能 
够 并 行 运行 是 很 有 意义 的 。 为 了 做 到 这 点 ， 修 改 代 
人 码 使 其 包含 with nogil: 语 句 : 





@cython.boundscheck(False) 

@cython.wraparound(False) 

cpdef clip(double[:] a, double min, double max, double[:] out): 
if 


min > max: 
raise ValueError 


("min must be <= max") 
if 


a.shape[0] != out.shape[0]: 
raise ValueError 


("input and output arrays must be the same size") 
with 


nogil: 
for 


range(a.shape[0]): 
out[i] = (a[i] if 


a[i] < max else 


max) if 


a[i] > min else 


min 








如 果 想 编写 一 个 能 操作 二 维 数组 的 版 本 ， 下 面 


一 种 解决 方案 :， 





@cython.boundscheck(False) 

@cython.wraparound(False) 

cpdef clip2d(double[:,:] a, double min, double max, double[:,:] 
if 


min > max: 
raise ValueError 


("min must be <= max") 
for 


range(a.ndim): 
if 


a.shape[n] != out.shape[n]: 
raise TypeError 


("a and out have different shapes") 
for 


range(a.shape[0]): 
for 


j in 


range(a.shape[1]): 
if 


a[i,j] < min: 


out[i,j] = min 
elif 
a[i,j] > max: 
out[i,j] = max 
else 
out[i,j] = a[i,j] 








硕 望 谈 者 看 到 这 里 时 不 会 感到 迷惑 。 本 节 所 有 
给 出 的 代码 都 不 会 特定 于 任何 一 种 数组 库 《〈 例 如 
NumPy) 。 这 使 得 代码 有 痢 非 钊 好 的 灵活 性 。 但 是 
同样 值得 注意 的 是 ， 一 旦 从 涉 到 多 维 数组 、 步 进 、 
偏 移 以 及 其 他 的 因 系 ， 那 么 对 数组 的 处 理 束 会 变 得 
更 加 复杂 。 这 些 主题 超出 了 本 布 的 范围 ， 但 是 更 多 
言 恩 可 以 在 PEP 3118 Chttp://www.python.org/dev/ 
peps/pep-3118 ) 中 找到 。Cython 文 档 中 关于 类 型 化 
内 存 视 图 Chttp://docs.cython.org/src/ 
userguide/memoryviews.html ) 的 章节 也 同样 值得 阅 
TE o 








15.12 ”把 函数 指针 转换 为 可 调用 对 
象 


15.12.1 问题 


RAM OZR FES CRRA A Fee, {Ae 
想 将 其 转换 成 一 个 Python 的 可 调用 对 象 ， 这 样 我 们 
可 以 把 它 当做 扩展 函数 使 用 。 


15.12.2 解决 方案 


ctypes 模 块 可 用 来 创建 包装 任意 内 存 地 址 的 可 
调用 对 象 。 下 面 的 示例 展示 了 如 何 获 取 一 个 C 函 数 
的 底层 原始 地 址 ， 以 及 如 何 将 其 转换 成 一 个 可 调用 
WE: 











>>> import ctypes 


>>> lib = ctypes.cdll.LoadLibrary(None) 
>>> # Get the address of sin() from the C math library 


>>> addr = ctypes.cast(lib.sin, ctypes.c_void_p).value 
>>> addr 
140735505915760 


>>> # Turn the address into a callable function 


>>> functype = ctypes.CFUNCTYPE(ctypes.c_double, ctypes.c_double 
>>> func = functype(addr ) 

>>> func 

<CFunctionType object at 0x1006816d0> 


>>> # Call the resulting function 


>>> func(2) 
0.9092974268256817 





15.123 ”讨论 


要 创建 一 个 可 调用 对 象 ， 必 须 首 先 创 建 一 个 
CFUNCTYPE 实 例 。CFUNCTYPEO 的 第 一 个 参数 
是 返回 类 型 ， 接 下 来 的 参数 就 是 原始 函数 的 参数 类 
型 。 一 旦 定义 了 函数 类 型 ， 就 用 它 来 包装 一 个 整数 
内 存 地 址 以 此 创建 出 一 个 可 调用 对 象 。 得 到 的 结果 
对 象 就 可 以 通过 ctypes 像 任何 普通 函数 一 样 进行 访 
ae 

AST PT ve AY A AN BE ER AE Br E S JER, 


层 。 然 而 ， 对 于 程序 和 库 来 说 ， 利 用 像 LLVM 库 中 
使 用 的 即时 编译 (just in-time compilation) 这 类 高 











级 代码 生成 扩 术 也 变 得 越 来 越 普 壳 了 。 


例如 ， 下 面 这 样 一 个 简单 的 示例 使 用 lvmpy 扩 
Fé Chttp://www.llvmpy.org ) 来 创建 一 个 小 的 汇编 
函数 ， 获 取 一 个 指 回 该 函数 的 指针 ， 然 后 将 其 转换 
为 一 个 Python 可 调用 对 象 : 


>>> from llvm.core import 


Module, Function, Type, Builder 

>>> mod = Module.new('example' ) 

>>> f = Function.new(mod, Type. function(Type.double(), \ 
[Type.double(), Type.double()], False), 

>>> block = f.append_basic_block('entry' ) 

>>> builder = Builder.new(block) 

>>> x2 = builder.fmul(f.args[0],f.args[0] ) 

>>> y2 = builder.fmul(f.args[1],f.args[1] ) 

>>> r = builder.fadd(x2, y2) 

>>> builder.ret(r) 

<llvm.core.Instruction object at 0x10078e990> 

>>> from llvm.ee import 


ExecutionEngine 

>>> engine = ExecutionEngine.new(mod) 

>>> ptr = engine.get_pointer_to_function(f) 

>>> ptr 

4325863440 

>>> foo = ctypes.CFUNCTYPE(ctypes.c_double, ctypes.c_double, cty 


>>> # Call the resulting function 


>>> foo(2,3) 
13.0 
>>> foo(4,5) 
41.0 
>>> foo(1,2) 








不 用 多 说 ， 如 果 在 这 个 层次 上 出 任何 差错 的 话 
将 导致 Python 解 释 器 “ 死 于 非 命 >。 请 记 住 ， 我 们 正 
在 直接 同 机 器 的 内 存 地 址 和 原生 机 器 码 打 交道 ， 而 
不 是 Python 函数 。 








15.13 ”把 以 NULEL 结 尾 的 字符 串 传 
2 CHE 
15.13.1 问题 

我 们 正在 编写 的 扩展 模块 需要 把 以 NULL 结 尾 


的 字符 串 传 给 C 库 。 但 是 ， 我 们 并 不 能 完全 确定 如 
何 通 过 Python 的 Unicode 字 符 串 实现 来 做 到 这 点 。 





15.13.2 解决 方案 


许多 C 库 中 包含 的 函数 都 把 以 NULL 结 尾 的 字 
符 串 类 型 声明 为 char*。 考 虑 如 下 的 C 函 数 ， 我 们 将 
用 它 作 为 说 明和 测试 的 例子 : 








void 


print_chars(char 


*S 
while 


(*s) { 


printf("%2x ", (unsigned char 





这 个 函数 只 是 简单 地 打印 出 每 个 字符 的 十 六 进 
制 表 示 ， 这 样 可 以 方便 地 对 传 入 的 字符 串 进 行 调 
试 。 例 如 : 


print_chars("Hello"); // Outputs: 48 65 6c 6c 6f 


要 从 Python 中 调用 这 样 一 个 C 函 数 ， 有 好 几 种 
选择 。 第 一 ， 可 以 使 用 转换 代码 “y” 限 制 函 数 
PyArg_ParseTupleO 只 操作 字 节 ， 示 例如 下 : 





static 


PyObject *py_print_chars(PyObject *self, PyObject *args) { 
char 


if 


(!PyArg_ParseTuple(args, "y", &s)) { 
return 


NULL; 
} 
print_chars(s); 
Py_RETURN_NONE; 








得 到 的 结果 函数 可 以 像 下 面 这 样 进行 操作 。 仔 
细 观 察 藤 入 了 NULL 字 节 的 字 节 流 是 如 何 处 理 的 ， 
以 及 传 入 Unicode 字 符 串 时 会 被 拒绝 执行 : 


>>> print_chars(b'Hello World' ) 
48 65 6c 6c 6f 20 57 6f 72 6c 64 
>>> print_chars(b'Hello\x00 


World' ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 


TypeError: must be bytes without null bytes, not bytes 
>>> print_chars('Hello World' ) 
Traceback (most recent call last): 

File "<stdin>", line 1, in <module> 


TypeError: 'str' does not support the buffer interface 
>>> 





如 果 想 传 入 Unicode 字 人 符 串 ， 可 以 使 用 格式 化 
代码 “s”， 示 例如 下 : 


| 


static 


PyObject *py_print_chars(PyObject *self, PyObject *args) { 
char 
tS; 
if 
(!PyArg_ParseTuple(args, "s", &s)) { 
return 
NULL; 
print_chars(s); 


Py_RETURN_NONE; 
} 











当 使 用 上 面 的 函数 时 ， 会 目 动 将 所 有 的 字符 串 
转换 为 以 NULL 结 尾 且 以 UTF-8 编 码 的 形式 。 示 例 
如 下 : 





>>> print_chars('Hello World') 
48 65 6c 6c 6f 20 57 6f 72 6c 64 
>>> print_chars('Spicy Jalape\uoof1 


o') # Note: UTF-8 encoding 


53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f 
>>> print_chars('Hello\x00 


World' ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: must be str without null characters, not str 
>>> print_chars(b'Hello World' ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
TypeError: must be str, not bytes 
>>> 








如 果 基 于 某 些 原因 ， 我 们 需要 直接 同 PyObject 
* 打 交道 而 不 能 使 用 PyArg_ParseTuple0， 下 面 的 代 
人 码 示例 告诉 我 们 如 何 从 字 节 流 和 字符 串 对 象 中 检查 
并 提取 出 一 个 合适 的 char * 引 用 : 





/* Some Python Object (obtained somehow) */ 


PyObject *obj; 


/* Conversion from bytes */ 


char 


* . 
S, 
s = PyBytes_AsString(o); 
if 


(!s) { 


return 


NULL; /* TypeError already raised */ 


print_chars(s); 


} 


/* Conversion to UTF-8 bytes from a string */ 


{ 
PyObject *bytes; 
char 

tg 
if 


(!PyUnicode_Check(obj)) { 
PyErr_SetString(PyExc_TypeError, "Expected string"); 
return 


NULL; 
} 
bytes = PyUnicode AsUTF8String(obj); 
s = PyBytes_AsString(bytes); 
print_chars(s); 
Py_DECREF (bytes); 





上 面 这 两 种 转换 部 可 保证 接受 以 NULL 结 尾 的 








数据 ， 但 是 它们 没有 检查 是 全 在 字符 串 中 间 插 入 了 


NULL 字 节 的 情况 。 因 此 ， 如 果 这 对 我 们 而 言 很 重 
要 的 话 ， 那 束 需 要 日 己 做 检查 了 。 





15.13.33 ”讨论 








如 果 可 能 的 话 ， 应 该 避免 编写 出 依赖 以 NULL 
结尾 的 字符 串 的 代码 ， 因 为 Python 对 字符 串 并 没有 
这 样 的 要 求 。 如 有 宁可 能 的 话 ， 处 理 字 符 串 时 使 用 指 
针 并 配合 使 用 表示 其 大 小 的 参数 几乎 总 是 更 好 的 选 
择 。 然 而 ， 有 时 候 我 们 不 得 不 去 处 理 遗 留 的 C 代 
码 ， 那 样 的 话 束 列 无 选择 了 。 


尽管 上 述 技 术 很 容易 使 用 ， 但 在 
PyArg_ParseTuple0 中 使 用 格式 化 代码 “s” 时 会 有 一 
些 内 存 方面 的 开销 ， 而 这 是 很 容易 被 忽略 的 地 方 。 
当 编 写 代 码 时 ， 如 果 使 用 了 上 述 转换 规则 ， 则 会 创 
建 一 个 UTF-8 编 码 的 字符 串 ， 并 且 会 永久 将 其 关联 
到 原始 的 字符 串 对 象 上 。 如 果 原 始 字 符 串 中 包含 有 
非 ASCII 字 符 ， 那 么 就 会 使 得 字符 串 的 大 小 增加 ， 
直到 被 垃圾 收集 机 制 处 理 为 止 。 示 例如 下 : 





























>>> import sys 

>>> S = 'Spicy Jalape\u00fi1o' 
>>> sys.getsizeof(s) 

87 


>>> print_chars(s) # Passing string 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f 
>>> sys.getsizeof(s) # Notice increased size 
103 

>>> 


pO 
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该 使 用 PyUnicode_AsUTF8StringO 函 数 来 重新 编写 C 
扩展 代码 ， 示 例如 下 : 


static PyObject *py_print_chars(PyObject *self, PyObject *args) 
PyObject *o, *bytes; 
char *s; 


if (!PyArg_ParseTuple(args, "U", &0)) { 
return NULL; 


bytes = PyUnicode_ASUTF8String(0); 


s = PyBytes_AsString(bytes); 
print_chars(s); 
Py_DECREF(bytes); 
Py_RETURN_NONE; 





按照 上 面 这 样 修改 ，UTF-8 编 码 的 字符 串 会 根 
据 需 要 进行 创建 ， 但 是 会 在 使 用 完毕 之 后 丢 借 。 下 
面 是 修改 过 的 版 本 产生 的 行为 ， 可 以 看 到 字符 串 的 
大 小 并 没有 增加 : 











>>> import sys 

>>> S = 'Spicy Jalape\u0O0f1o' 

>>> sys.getsizeof(s) 

87 

>>> print_chars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f 
>>> sys.getsizeof(s) 

87 

>>> 


Le 


如 果 打 算 把 以 NULL 结 尾 的 字符 串 传递 给 通过 
ctypes 包 装 的 水 数 ， 请 注意 ctypes 只 允许 传 入 字 节 ， 
而 且 不 会 检查 传 入 的 字 节 中 是 否 有 插入 NULL。 示 
例如 下 : 














>>> import ctypes 
>>> lib = ctypes.cdll.LoadLibrary("./libsample.so") 
>>> print_chars = lib.print_chars 
>>> print_chars.argtypes = (ctypes.c_char_p, ) 
>>> print_chars(b'Hello World' ) 
48 65 6c 6c 6f 20 57 6f 72 6c 64 
>>> print_chars(b'Hello\x0O0World' ) 
48 65 6c 6c 6f 
>>> print_chars('Hello World' ) 
Traceback (most recent call last): 
File "<stdin>", line 1, in <module> 
ctypes.ArgumentError: argument 1: <class 'TypeError'>: wrong typi 
>>> 





如 果 想 传 入 字符 串 而 不 是 字 节 流 ， 则 需要 手动 
先 执 行 一 次 UTF-8 编 码 。 示 例如 下 : 
>>> print_chars('Hello World'.encode('utf-8')) 


48 65 6c 6c 6f 20 57 6f 72 6c 64 
>>> 





对 于 其 他 的 C 扩 展 模 块 编写 工具 (例如 Swig、 
Cython) ， 是 否 要 使 用 它们 将 字符 串 传 递 给 C 代 码 





则 需要 做 仔细 的 研究 。 


15.14 把 Unicode 字 符 串 传递 给 C 
E 
15.14.1 问题 

我 们 正在 编写 的 扩展 模块 需要 把 Python 字符 串 


传递 给 一 个 C 语 言 编写 的 库 函 数 ， 而 这 个 库 函 数 可 
能 并 不 知道 该 如 何 恰当 地 处 理 Unicode。 





15.14.2 解决 方案 


这 里 需要 考虑 的 问题 比较 多 ， 但 是 主要 问题 在 
于 已 有 的 C 库 并 不 能 理解 Python 原生 的 Unicode 字 符 
串 表 示 。 因 此 ， 我 们 的 挑战 瓯 是 将 Python 字符 串 转 
换 为 让 C 库 可 以 更 容易 理解 的 形式 。 


为 了 更 好 地 说 明 这 个 了 问题， 下面 给 出 了 两 个 C 
函数 。 出 于 调试 和 实验 的 目的 ， 这 两 个 函数 操作 字 
符 串 数据 并 产生 输出 。 其 中 一 个 函数 使 用 的 是 以 
char *, int 形 式 给 出 的 字 节 流 ， 而 男 一 个 函数 使 用 的 
是 以 wchar_t*, int 形 式 给 出 的 宽 字 符 。 示 例如 下 : 








void print_chars(char *s, int len) { 
int n = 0; 
while (n < len) { 


printf("%2x ", (unsigned char) s[n]); 
n++; 


} 
printf("\n"); 
} 


void print_wchars(wchar_t *s, int len) { 
int n = 0; 
while (n < len) { 
printf("%x ", s[n]); 
n++; 


} 
printf("\n"); 
} 





对 于 操作 字 节 流 的 函数 print_chars0) 来 说 ， 需 要 
将 Python 字符 串 转 换 成 一 个 合适 的 字 节 编码 ， 例 如 
UTF-8。 示 例如 下 : 


static PyObject *py_print_chars(PyObject *self, PyObject *args) 
char *s; 
Py_ssize t len; 


if (!PyArg_ParseTuple(args, "s#", &s, &len)) { 
return NULL; 


print_chars(s, len); 
Py_RETURN_NONE; 





对 于 可 以 处 理 机 器 上 原生 的 wchar_t 类 型 的 库 孙 
数 来 说 ， 可 以 像 这 样 编 写 扩 展 代码 : 


static PyObject *py_print_wchars(PyObject *self, PyObject *args) 


wchar_t *s; 
Py_ssize_t len; 


if (!PyArg_ParseTuple(args, "u#", &s, &len)) { 
return NULL; 


print_wchars(s,len); 
Py RETURN_NONE,; 





下 面 的 交互 式 会 话说 明了 这 些 函 数 是 如 何 工作 
HY: 


>>> S = 'Spicy Jalape\u0O0fi1o' 

>>> print_chars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f 
>>> print_wchars(s) 


53 70 69 63 79 20 4a 61 6c 61 70 65 f1 6f 
>>> 








请 仔细 观察 基于 字 节 流 的 函数 print_charsO 是 如 
何 接 受 UTF-8 编 码 的 数据 的 ， 而 print_wchars() 古 如 
何 接受 Unicode 码 点 值 的 CUnicode code point 
value) 。 


15.143 ”讨论 
在 正式 讨论 前 ， 应 该 先 研究 一 下 我 们 打算 访问 


的 C 函 数 库 有 了 哪些 本 质 特性 。 对 于 许多 C 库 来 说 ， 
传递 字 节 流 比 传递 字符 串 要 显得 更 有 意义 些 。 要 做 








到 这 点 ， 可 以 使 用 下 面 的 转换 代码 : 


static PyObject *py_print_chars(PyObject *self, PyObject *args) 
t57 


Py_ssize_t len; 


/* accepts bytes, bytearray, or other byte-like object */ 
if (!PyArg_ParseTuple(args, "y#", &s, &len)) { 
return NULL; 


print_chars(s, len); 
PY_RETURN_NONE; 








如 采 仍 然 决定 传递 字符 串 ， 我 们 需要 了 解 到 
Python 3 使 用 的 学 AT EB ASTIN ER PATE DV PEAR GH, AFF 
不 能 全 部 直接 映射 到 使 用 标准 的 char * 或 wchar te* 
类 型 的 C 库 中 去 ， 有 关 这 方面 的 细节 可 参考 PEP 
393 Chttp://www.python.org/dev/peps/pep-0393 ) 。 
因此 ， 要 把 字符 串 数 据 传 递 给 C， 那 么 几乎 总 是 要 
做 某 种 形式 的 转换 才 行 。 在 PyArg_ParseTuple() 中 使 
用 格式 化 代码 s# 和 u# 可 以 安全 地 执行 这 样 的 转换 。 


可 能 存在 的 缺点 束 是 这 样 的 转换 会 导致 原始 字 

符 串 对 象 的 大 小 永久 性 的 增加 。 每 当 进 行 转换 时 ， 

经 过 转换 的 数据 会 做 一 份 拷贝 天 联 到 原始 字符 串 对 

象 上 ， 这 样 稍 后 可 以 得 到 重用 。 可 以 通过 下 面 的 交 
互 式 会 话 来 观察 这 个 效 末 : 


>>> import sys 











>>> S = 'Spicy Jalape\u0O0f1o' 

>>> sys.getsizeof(s) 

87 

>>> print_chars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f 
>>> sys.getsizeof(s) 

103 

>>> print_wchars(s) 

53 70 69 63 79 20 4a 61 6c 61 70 65 f1 6f 
>>> sys.getsizeof(s) 





OUR FFT AB BE EER), ROTA CA 
Heo BEUR ti TED PRR PET AE CAR 
理 ， 很 可 能 就 希望 能 够 避免 这 种 开销 。 下 面 对 第 一 
Na FR PR BLES HT PS RSE, CBRE S 
这 些 内 存 开 销 : 








static PyObject *py_print_chars(PyObject *self, PyObject *args) 
PyObject *obj, *bytes; 
char *s; 
Py_ssize_t len; 


if (!PyArg_ParseTuple(args, "U", &obj)) { 
return NULL; 


bytes = PyUnicode_ASUTF8String(obj); 
PyBytes_AsStringAndSize(bytes, &s, &len); 
print_chars(s, len); 

Py_DECREF(bytes); 

Py_RETURN_NONE; 





要 避免 wchar t 处 理 的 内 存 开销 则 更 为 棘手 。 在 
内 部 ，Python 使 用 最 有 效 的 表示 来 存储 字符 串 。 例 
如 ， 使 用 字 节 数组 来 存储 仪 包含 ASCII 的 字符 串 ， 
但 是 ， 如 果 字 符 串 包含 的 字符 范围 是 在 
U+0000~U+FFFF 之 则 ， 则 需要 使 用 两 个 字 届 来 表 
示 。 由 于 不 存在 数据 的 单一 表示 ， 因 此 无 法 将 内 部 
数组 转换 为 wchar_t*， 更 别 指望 它 会 奏效 。 相 及 ， 
必须 创建 一 个 wchar_t 数 组 ， 然 后 将 文本 复制 进来 。 
PyArg_ParseTuple( ) 的 “u#” 格 式 代 人 码 会 执行 该 操 
作 ， 但 是 会 以 牺牲 效率 为 代价 〔( 它 将 生成 的 副本 附 
加 到 字符 串 对 象 ) 。 


如 果 想 避免 这 一 长 期 的 内 存 开销 ， 唯 一 的 选择 
是 将 Unicode 数 据 复制 到 一 个 临时 的 数组 ， 将 其 传 
递 给 C 库 函数 ， 然 后 释放 该 数组 。 下 面 是 一 个 可 能 
的 实现 : 

















static PyObject *py_print_wchars(PyObject *self, PyObject *args) 
PyObject *obj; 

wchar_t *s; 

Py_ssize_t len; 


if (!PyArg_ParseTuple(args, "U", &obj)) { 

return NULL; 

} 

if ((s = PyUnicode_AsWideCharString(obj, &len)) == NULL) { 
return NULL; 


print_wchars(s, len); 
PyMem_Free(s); 
Py RETURN_NONE; 


[L SCRE 


在 这 个 实现 中 ， 
PyUnicode_AsWideCharStringO 针 对 wchar_t 字 符 创 
建 了 一 个 临时 的 缓冲 区 ， 并 将 数据 找 贝 到 这 里 。 这 
个 缓冲 区 会 在 传递 给 C 之 后 释放 近 。 在 写作 本 小 市 
时 ， 关 于 这 个 行为 似乎 有 一 个 bug， 可 以 在 Python 
的 问题 页 面 (bugs.python.orgVissue16254) 中 找到 相 
关 的 描述 


如 果 出 于 某 些 原因 知道 C 库 会 以 其 他 非 UTF-8 
编码 的 形式 来 处 理 数 据 ， 我 们 可 以 强制 python 执行 
适当 的 转换 ， 这 可 以 通过 下 面 的 扩展 函数 来 完成 : 








Static oe *py_print_chars(PyObject *self, PyObject *args) 
char *s = 


int len; 
if (1PyArg_ParseTuple(args, "es#", "encoding-name", &s, &len)) 


return NULL; 


print_chars(s, len); 
PyMem_Free(s); 
Py_RETURN_NONE; 








最 后 但 同样 重要 的 是 ， 如 果 想 直接 同 Unicode 
字符 串 中 的 字符 打交道 ， 下 面 给 出 的 示例 说 明了 其 
中 的 底层 访问 机 制 |: 


static PyObject *py_print_wchars(PyObject *self, PyObject *args) 











PyObject *obj; 
int n, len; 
int kind; 

void *data; 


if (!PyArg_ParseTuple(args, "U", &obj)) { 
return NULL; 


if (PyUnicode_READY(obj) < 0) { 
return NULL; 

} 

len = PyUnicode_GET_LENGTH(obj); 

kind = PyUnicode_KIND(obj); 

data = PyUnicode_DATA(obj)j; 


for (n = 0; n < len; n++) 
Py _UCS4 ch = PyUnicode_READ(kind, data, n); 
printf("%x ", ch); 


} 
printf("\n"); 
Py _RETURN_NONE; 





在 上 述 代码 中 ， 宏 PyUnicode_KINDO 和 





PyUnicode_DATAO 是 同 Unicode 的 宽度 可 变 存 储 相 
关 的 ， 在 PEP 393 中 可 找到 相关 描述 。 变 量 kind 对 底 
层 的 存储 信息 〈8 位 、16 位 或 32 位 ) 进行 编码 ， 而 

变量 data 则 指向 缓冲 区 。 事 实 上 ， 只 要 把 它们 传递 

给 PyUnicode_READO) 宏 即 可 ， 不 需要 再 做 任何 处 

FH 








最 后 再 多 说 儿 句 ， 当 从 Python 中 把 Unicode 子 符 
串 传 递 给 C 时 ， 应 该 尽 可 能 选择 简单 的 方案 。 如 果 
在 UTF-8 编 码 和 宽 字 符 中 选择 ， 那 惑 选 UTF-8。 提 


供 对 UTF-8 的 文 持 似乎 更 加 普 志 ， 有 麻烦 也 会 少 些 ， 

解释 右 对 UTF-8 的 文 持 也 更 好 。 最 后 ， 请 务必 答 看 

处 理 Unicode 的 相关 文档 
(https://docs.python.org/3/c-api/Unicode.html ) 。 


15.15 ”把 C 字 人 符 串 转换 到 Python 中 
15.15.1 问题 


我 们 想 把 C 字 符 串 转换 为 Python 字 市 流 或 者 字 
符 串 对 象 。 





15.15.2 ”解决 方案 


对 于 以 char *, int 形 式 表 示 的 C 字 符 串 ， 我 们 必 
须 决 定 是 否 要 将 它们 以 原始 字 节 串 或 者 Unicode 字 
符 串 的 形式 来 表示 。 字 节 对 象 可 以 通过 
Py_BuildValue() 来 构建 ， 示 例如 下 : 








char *s; /* Pointer to C string data */ 
int len; /* Length of data */ 


/* Make a bytes object */ 
PyObject *obj = Py_BuildValue("y#", s, len); 








如 果 想 构建 一 个 Unicode 字 符 串 ， 而 且 知 道 s 指 
问 的 数据 是 以 UTEF-8 来 编码 的 ， 则 可 以 使 用 如 下 的 
代码 来 完成 





PyObject *obj = Py_BuildValue("s#", s, len); 


[L SCR 


如 果 s 指 同 的 数据 是 以 其 他 已 知 的 格式 来 编码 
的 ， 可 以 通过 PyUnicode_Decode() 来 创建 字符 串 对 
Rs 





PyObject *obj = PyUnicode_Decode(s, len, "encoding", "errors"); 


/* Examples /* 
obj = PyUnicode_Decode(s, len, "latin-1", "strict"); 
obj = PyUnicode_Decode(s, len, "ascii", "ignore"); 








如 果 刚 好 有 一 个 以 wchar_t*, len 表 示 的 宽 字 符 
串 ， 这 里 就 有 一 些 选 择 。 首 先 ， 可 以 像 这 样 使 用 
Py_BuildValue(): 


wchar_t *w; /* Wide character string */ 
int len; /* Length */ 


PyObject *obj = Py_BuildValue("u#", w, len); 





其 次 ， 可 以 直接 使 用 
PyUnicode_FromWideChar(): 


PyObject *obj = PyUnicode_FromWideChar(w, len); 


AY FEAT BORD, ANSE I UE Tf 








释 一 一 这 里 会 假设 把 原始 的 Unicode 侣 点 直接 转换 
到 Python 中 。 





15.15.3 ”讨论 


把 字符 串 从 C 转 换 到 Python 所 遵循 的 准则 同 IO 
一 样 。 即 ，C 中 的 数据 必须 依据 某 个 编码 规则 显 式 
将 其 解码 为 字符 串 。 篆 见 的 编码 包括 ASCII、Latin- 
1 以 及 UTF-8。 如 果 不 能 百分之百 地 确定 编码 格式 或 
者 数据 本 和 丑 是 二 进 制 的 ， 那 么 最 好 的 选择 就 是 将 字 
符 串 编码 为 字 节 流 。 


当 创 建 对 象 时 ，Python 总 是 会 拷贝 我 们 提供 的 
字符 串 数据 。 如 末 有 必要 的 话 ， 之 后 释放 C 字 符 串 
的 任务 就 落 在 我 们 的 和 身上。 此外， 为 了 获得 更 好 的 
可 徘 性 ， 在 创建 字符 串 时 应 该 同时 使 用 指针 和 表示 
a 而 不 是 依赖 于 以 NULL 结 尾 的 
数据 。 














15.16 ” 同 编 码 方式 不 确定 的 C 字 从 
串 打交道 


15.16.1 问题 


我 们 需要 在 C 和 Python 之 间 来 回转 换 字 符 串 ， 
但 是 字符 串 在 C 中 的 编码 方式 是 不 确定 的 或 者 说 是 
未 知 的 。 例 如 ， 假 设 C 中 的 数据 应 该 是 按照 UTF-8 
来 编码 的 ， 但 这 个 约定 并 没有 得 到 强制 执行 。 我 们 
想 编写 代码 能 够 以 优雅 的 方式 处 理 有 问题 的 数据 ， 
在 处 理 的 过 程 中 不 会 导致 Python 骨 溃 ， 也 不 会 破坏 
字符 串 数 据 。 

















15.16.2 ”解决 方案 


下 和 面 的 C 函 数 以 及 数据 可 用 来 说 明 这 个 问题 的 
本 质 : 





/* Some dubious string data (malformed UTF-8) */ 


const char 


*sdata = "Spicy Jalape\xc3\xb1 


slen = 16; 
/* Output character data */ 
void 


print_chars(char 


n= 0; 
while 


(n < len) { 
printf("%2x ", (unsigned char 


) s[n]); 


n++; 


} 
printf("\n 


"); 
} 


[L CSR 


在 上 述 代 码 中 ， 字 符 串 sdata 将 UTF-8 和 格式 不 
正确 的 数据 混合 在 了 一 起 。 然 而 ， 如 果 用 户 在 C 中 
调用 print_chars(sdata, slen)， 却 能 够 正常 工作 。 


现在 假设 我 们 想 将 sdata 的 内 容 转 换 为 Python 字 
从 串 。 进 一 步 假 设 我 们 想 稍 后 再 把 这 个 Python 字 符 
串通 过 扩展 模块 传 回 给 print_charsO 函 数 。 下 面 给 出 
的 做 法 可 以 保证 束 算 有 编码 问题 存在 ， 也 能 够 完全 
保留 原始 数据 不 变 。 











/* Return the C string back to Python */ 


static 


PyObject *py_retstr(PyObject *self, PyObject *args) { 
if 


(!PyArg_ParseTuple(args, "")) { 
return 


NULL; 
} 


return 
PyUnicode_Decode(sdata, slen, "utf-8", "Surrogateescape"); 


/* Wrapper for the print_chars() function */ 


static 


PyObject *py_print_chars(PyObject *self, PyObject *args) { 
PyObject *obj, *bytes; 
char 


*s = 0; 
Py_ssize_t len; 
if 


(!PyArg_ParseTuple(args, "U", &obj)) { 
return 


((bytes = PyUnicode_AsEncodedString(obj, "utf-8", "surrogateescape 
== NULL) { 
return 


NULL; 
} 
PyBytes_AsStringAndSize(bytes, &s, &len); 
print_chars(s, len); 
Py_DECREF (bytes); 
PY_RETURN_NONE; 





Qn RE Python HS isk Wal FS HE eR, ARR EK 
的 : 


>>> s = retstr() 

>>> S 

"Spicy Jalapefo\udcae' 
>>> print_chars(s) 


53 70 69 63 79 20 4a 61 6c 61 70 65 c3 b1 6f ae 
>>> 


仔细 观察 就 会 发 现 有 问题 的 字符 串 在 编码 为 Python 字符 串 时 没有 出 现 错误 ， 而 且 当 将 











15.16.3 ”讨论 


本 节 解 雇 了 在 扩展 模块 中 处 理 字 符 串 时 微妙 而 
义 洪 在 的 恼人 问题 。 即 ，C 字 符 串 在 扩展 模块 中 可 
能 不 会 遵循 严格 的 Unicode 编 码 /解码 规则 ， 而 这 正 
是 pvihon 本 来 所 期 望 的 。 因 此 ， 有 可 能 会 出 现 将 有 
问题 的 C 数 据 传 入 到 Python 中 的 情况 。 这 方面 有 一 
个 好 的 例子 ， 那 束 是 像 文 件 名 这 种 与 系统 抵 层 调用 
相关 的 C 字 符 串 。 例如 ， 如 果 系 统 调用 返回 了 一 个 
有 问题 的 字符 串 给 Python 解释 器 ， 而 解释 堪 不 能 
硝 地 进行 解码 ， 此 时 会 发 生 什 么 呢 ? 


一 般 来 襄 ，Unicode 方 面 的 错误 通常 会 通过 指 
定 某 种 错误 方案 (error policy) 来 处 理 ， 例 如 严格 
(strict) ~ AMS Cignore) . 74 (replace) 或 者 
其 他 次 似 的 方案 。 但 是 ， 这 些 方案 的 缺点 在 于 它们 











会 不 可 挽回 地 破坏 原始 字符 串 的 内 容 。 例 如 ， 如 果 
a 中 有 问题 的 数据 采用 以 上 这 些 方案 进行 解码 ， 
终 会 得 到 这 样 的 结 


>>> raw = b'Spicy Jalape\xc3\xb1 


o\xae 


>>> raw.decode('utf-8', 'ignore' ) 


"Spicy Jalapefo' 

>>> raw.decode('utf-8', 'replace' ) 
"Spicy Jalapefo?' 

>>> 





而 代理 转 义 〈surrogateescape) 错误 处 理 方案 
会 接受 所 有 不 可 解码 的 字 节 ， 并 将 它们 转换 为 代理 
对 的 低 半 部 Clow-half) QudcXX， 这 里 XX 是 原始 
字 节 值 ) 。 例 如 : 


>>> raw.decode('utf-8', 'Surrogateescape' ) 
"Spicy Jalapefo\udcae' 
>>> 





像 \udcae 这 种 独立 的 低位 代理 字符 从 来 不 会 出 
现在 有 效 的 Unicode 字 符 中 。 因 此 ， 这 个 字符 串 从 
技术 上 来 说 是 个 非法 的 表示 。 事 实 上， 如 果 试 着 将 





它 传 给 函数 并 执行 输出 ， 束 会 得 到 编码 错误 : 


>>> s = raw.decode('utf-8', 'surrogateescape') 
>>> <strong>print</strong>(s) 
Traceback (most recent call last): 


File "<stdin>", line 1, in <module> 
UnicodeEncodeError: '‘utf-8' codec can't encode character '\udcae 
in position 14: surrogates not allowed 
>>> 





但 是 ， 使 用 代理 转 义 的 主要 原因 在 于 这 么 做 能 
够 让 有 问题 员 的 学 符 串 从 C 传 到 Python， 然后 再 传 回 
到 C 中 时 不 破坏 任何 数据 。 当 字符 串 再 次 使 用 
surrogateescape 进 行 编码 时 ， 代 理 字 符 将 转换 回 它 
们 原来 的 字 市 。 示 例如 下 : 











>>> s 
'Spicy Jalapeño\udcae' 

>>> s.encode('utf-8','surrogateescape') 
b'Spicy Jalape\xc3\xb1o\xae' 


>>> 





; ¥ 
如 果 使 用 了 适当 的 编码 方式 ， 我 们 的 代码 将 更 加 可 
靠 。 但 是 ， 有 时 候 我 们 没 法 控制 数据 的 编码 ， 而 且 
也 不 能 随意 忽略 或 者 奉 换 有 问题 的 数据 ， 因 为 其 他 
和 本 节 讲 解 了 应 该 如 何 应 对 这 
些 情况 。 


SAY HEH 

















最 后 再 说 一 句 ， 许 多 与 系统 相关 的 Python 函 
数 ， 尤 其 是 那些 与 文件 名 、 环 境 变 量 以 及 命令 行 选 
项 相关 的 函数 都 使 用 了 代理 编码 。 人 例如， 如果 某 个 
目录 中 包含 有 不 可 解码 的 文件 名 ， 而 我 们 针对 这 个 
目录 使 用 像 os.listdirO) 这 样 的 函数 ， 那 么 它 束 会 以 代 
理 转 义 的 方式 返回 字符 串 。 相 关内 容 在 5.15 节 中 也 
有 涉及 。 











PEP 383 Chttp://www.python.org/dev/peps/pep- 
0383) 中 有 更 多 大 于 本 市 所 到 的 问题 的 相关 信息 ， 
对 代理 转 义 的 错误 处 理 机 制 也 有 说 明 。 





15.17 把 文件 名 传 给 C 扩 展 模块 
15.17.1 问题 

我 们 需要 将 文件 名 传 给 C 扩 展 函 数 ， 但 是 需要 
确保 文件 名 已 经 根据 系统 所 期 望 的 文件 名 编码 方式 
进行 了 编码 。 
15.17.2 ”解决 方案 


要 编写 一 个 扩展 函数 用 来 接收 文件 名 ， 可 以 使 
用 下 面 的 代码 来 完成 : 








static 


PyObject *py_get_filename(PyObject *self, PyObject *args) { 
PyObject *bytes; 
char 


*filename; 
Py_ssize_t len; 
if 


(!PyArg_ParseTuple(args,"0&", PyUnicode_FSConverter, &bytes)) { 
return 


NULL; 


} 
PyBytes_AsStringAndSize(bytes, &filename, &len); 


/* Use filename */ 


/* Cleanup and return */ 


Py_DECREF(bytes) 
Py_RETURN_NONE; 





如 果 已 经 有 了 一 个 PyObject * 并 希望 将 其 转换 
成 文件 名 ， 可 以 使 用 下 面 的 代码 完成 : 


PyObject *obj; /* Object with the filename */ 





PyObject *bytes; 
char 


*filename; 
Py_ssize_t len; 
bytes = PyUnicode_EncodeFSDefault(obj); 


PyBytes_AsStringAndSize(bytes, &filename, &len); 
/* Use filename */ 


/* Cleanup */ 


Py_DECREF(bytes ) ; 








如 果 需 要 将 文件 名 再 返回 给 Python， 可 以 使 用 
下 面 的 代码 : 


/* Turn a filename into a Python object */ 


char 


*filename; /* Already set */ 


filename_len; /* Already set */ 


PyObject *obj = PyUnicode_DecodeFSDefaultAndSize(filename, fileni 





15.173 ”讨论 





以 可 移植 的 方式 来 处 理 文件 名 是 一 个 为 手 的 问 


题 ， 最 好 把 这 个 问题 留 给 Python 来 解决 。 如 果 我 们 
把 本 节 提 到 的 技术 用 在 自己 的 扩展 代码 中 ， 那 么 文 
件 名 的 处 理 方式 就 和 Python 中 人 处理 文件 名 的 方式 保 
持 一 致 了 。 这 包括 对 字 节 的 编码 /解码 、 处 理 有 问题 
的 字符 、 代 理 转 义 以 及 其 他 的 复杂 情况 。 


15.18 把 打开 的 文件 传 给 C 扩 展 模 
ER 


15.18.1 问题 


在 Python 中 有 一 个 打开 的 文件 对 象 ， 我 们 需要 
ail 展 代 码 ， 在 扩展 模块 中 使 用 这 个 文 





15.18.2 ”解决 方案 
要 把 一 个 文件 转换 为 一 个 整数 表示 的 文件 描述 


符 ， 可 以 使 用 PyObject_AsFileDescriptor0 来 完成 。 
示例 如 下 : 


PyObject *fobj; /* File object (already obtained somehow 


int 


fd = PyObject_AsFileDescriptor(fobj); 
if 


(fd < 0) { 
return 





NULL; 
a 


得 到 的 文件 摘 述 符 是 通过 在 fobj 上 调用 fileno() 
THIER. KE, HE Ay DA py Sa Be h IS 
符 的 对 象 都 应 该 能 正常 工作 〈 即 ， 文 件 、 套 接 字 


ae 








一 旦 有 了 文件 插 述 人行 ， 束 可 以 将 它 传递 给 各 种 
同文 件 打交道 的 压 层 C 函 数 了 。 


如 采 需 要 将 一 个 整数 表示 的 文件 摘 述 符 转 换 回 
Python 对 象 ， 可 以 使 用 PyFile_ FromFd()， 示 例如 








/* Existing file descriptor (already open) */ 


PyObject *fobj = PyFile_FromFd(fd, "filename", "r",-1,NULL,NULL,N 





疯 数 PyFile_FromFd() 的 参数 正好 对 应 着 内 建 的 
open(0 〇 函数。 这 里 的 NULL 表 示 采 用 默认 的 


encoding、errors 和 newline 设 定 。 
15.18.3 ”讨论 


如 果 要 将 文件 对 象 从 Python 中 传递 给 C， 这 里 
有 几 个 环 手 的 问题 需要 考虑 。 首 先 ，Python 是 通过 
io 模块 实现 目 己 的 IO 缓冲 处 理 的 。 在 将 任何 类 型 的 
文件 描述 符 传 递 给 C 之 前 ， 应 该 首先 在 对 应 的 文件 
对 象 上 刷新 MO 缓冲 的 。 否 则 ， 在 文件 流 上 可 能 会 
出 现 数据 乱 序 的 情况 。 


其 次 ， 需 要 特别 注意 文件 的 归属 〈ownership ) 
和 由 谁 负责 关闭 文件 的 问题 。 如 果 把 文件 描述 符 传 
递 给 C， 但 仍然 要 在 Python 中 使 用 这 个 文件 的 话 ， 
需要 确保 在 C 代 码 中 不 会 意外 地 关闭 了 文件 。 同 
样 ， 如 果 把 文件 摘 述 符 转 换 成 了 Python 文件 对 象 ， 
需要 明确 由 谁 来 负 贡 关闭 文件 。PyFile_FromFd() 的 
最 后 人 1 就 表示 应 该 由 Python 来 关闭 这 
六 文件 。 


如 果 要 创建 男 一 种 不 同类 型 的 文件 对 象 ， 比 如 
在 C 标 准 1/O 库 中 使 用 fdopen0 创 建 FILE * 对 象 ， 需 
要 特别 小 心 。 这 么 做 会 引入 两 种 完全 不 同 的 MO 组 
冲 层 到 WO 栈 中 一 个 来 自 于 Python 的 io 模 块 ， 男 一 
个 来 自 于 C 的 stdio，〉。 在 C 中 ， 像 fclose() 这 样 的 操 
作 也 会 在 无 意 中 关 闭 将 来 要 在 Python 中 使 用 的 文 


























件 。 如 果 要 选择 的 话 ， 应 该 让 扩展 代码 同 底层 的 文 
件 接 述 符 相 兼容 ， 而 不 是 采用 <stdio.h> 中 提供 的 高 
层 抽象 (比如 FILE *) 。 








15.19 ”在 C 中 该 取 文 件 型 对 象 
15.19.1 问题 


我 们 想 编写 C 扩 展 代 码 使 其 能 够 从 任意 的 
Python 文件 型 对 象 中 恋 取 数据 《〈 例 如， 普通 的 文 
件 、StringIO 对 象 等 ) 。 


15.19.2 解决 方案 


要 在 文件 型 对 象 上 读 取 数据 ， 需 要 重复 调用 对 
象 的 read() 方 法 并 采取 适当 的 步 又 将 数据 进行 解 
码 。 


下 和 面 给 出 了 一 个 C 扩 展 函数 示例 ， 它 只 是 读 取 
出 文件 型 对 象 上 的 所 有 数据 并 打印 到 标准 输出 上 ， 
这 样 可 以 看 到 结果 : 











#define CHUNK_SIZE 8192 


/* Consume a "file-like" object and write bytes to stdout */ 


static 


PyObject *py_consume_file(PyObject *self, PyObject *args) { 
PyObject *obj; 


PyObject *read_meth; 
PyObject *result = NULL; 
PyObject *read_args; 

if 


(!PyArg_ParseTuple(args,"0", &obj)) { 
return 


NULL; 
} 


/* Get the read method of the passed object */ 


if 


((read_meth = PyObject_GetAttrString(obj, "read")) == NULL) { 
return 


NULL; 
} 


/* Build the argument list to read() */ 


read_args = Py_BuildValue("(i)", CHUNK_SIZE); 
while 


(1) { 
PyObject *data; 
PyObject *enc_data; 
char 


*buf; 
Py_ssize_t len; 


/* Call read() */ 


if 


((data = PyObject_Call(read_meth, read_args, NULL)) == NULL) { 
goto 


final; 


j 


/* Check for EOF */ 


if 


(PySequence_Length(data) == 0) { 
Py_DECREF (data); 
break 


} 


/* Encode Unicode as Bytes for C */ 


if 


((enc_data=PyUnicode_AsEncodedString(data, "utf-8", "strict" ) )==NU 
Py_DECREF (data); 
goto 


final; 


} 


/* Extract underlying buffer data */ 


PyBytes_ AsStringAndSize(enc_data, &buf, &len); 


/* Write to stdout (replace with something more useful) */ 


write(1, buf, len); 


/* Cleanup */ 


Py DECREF(enc_data); 
Py_DECREF(data); 


result = Py_BuildValue(""); 


final: 
/* Cleanup */ 


Py _DECREF(read_meth); 
Py _DECREF(read_args); 
return 


result; 


J 





要 测试 上 述 代 码 ， 可 以 先 创建 一 个 文件 型 对 象 
比如 StringIO 实 例 ， 然 后 将 其 传 入 : 


>>> import io 


>>> f = 1i0.StringI0('Hello\n 


World\n 


>>> import sample 


>>> sample.consume_file(Ff) 
Hello 

World 

>>> 





15.19.33 ”讨论 


与 普通 的 系统 文件 不 同 ， 一 个 文件 型 对 象 并 不 
一 定 是 围绕 着 底层 的 文件 摘 述 符 来 构建 的 。 因 此 ， 
不 能 用 C 库 中 的 普通 函数 来 访问 。 相 反 ， 我 们 需要 
用 Python 的 C API 来 操纵 文件 型 对 象 ， 这 和 在 Python 
中 工作 时 很 像 。 


在 解决 方案 中 ，read(0) 方 法 是 从 所 传 入 的 对 象 
中 提取 出 来 的 。 接 着 会 创建 一 个 参数 列表 ， 然 后 重 
复 传 给 PyObject_Call0 来 调用 方法 。 要 检测 文件 结 
Æ (EOF) ， 我 们 使 用 PySequence_Length0) 来 检查 
IRI ZG RAR BEE FA 











对 于 所 有 的 IO 操作 ， 我 们 需要 关注 底层 的 编 
人 码 以 及 字 节 和 Unicode 之 间 的 区 别 。 本 节 给 出 的 解 
决 方案 展示 了 如 何以 文本 模式 谈 取 文件 ， 并 将 得 到 
的 结果 解码 为 可 以 在 C 程 序 中 使 用 的 字 节 编码 形 
式 。 如 果 想 以 二 进 制 模式 读 取 文件 ， 只 需要 做 很 少 
的 修改 即 可 。 示 例如 下 : 











/* Call read() */ 


if 


((data = PyObject_Call(read_meth, read_args, NULL)) == NULL) { 
goto 


final; 
} 


/* Check for EOF */ 


if 


(PySequence_Length(data) == 0) { 
Py_DECREF (data); 
break 


} 
if 


(!PyBytes Check(data)) { 


Py_DECREF(data); 
PyErr_SetString(PyExc_I0Error, "File must be in binary mod 
goto 


final; 


/* Extract underlying buffer data */ 


PyBytes_AsStringAndSize(data, &buf, &len); 





ANTS HRP ET ETARE. SEH 





PyObject * 变 量 时 ， 需 要 仔细 管理 引用 计数 并 且 当 
不 再 使 用 时 需要 进行 清理 。 示 例 中 出 现 的 
Py_DECREFO 调 用 正 是 应 对 于 此 。 


本 节 以 一 种 通用 的 方式 来 编写 ， 这 样 可 以 把 技 
术 应 用 到 其 他 的 文件 操作 上 ， 比 如 说 写 文 件 。 例 
如 ， 要 写 入 数据 ， 只 要 从 文件 型 对 象 中 获取 write() 
方法 ， 将 数据 转换 为 合适 的 Python 对 象 ( 字 节 或 者 
Unicode 〉)， 然 后 调用 方法 将 数据 写 入 文件 即 可 。 


最 后 ， 尺 管 文件 型 对 象 通 党 还 提供 了 其 他 的 方 
法 (比如 readline()、read_into()，， 但 为 了 获得 最 
大 的 可 移植 性 ， 最 好 还 是 专注 于 基本 的 read() 和 
write() 方 法 。 对 于 C 扩 展 代 码 来 说 ， 尽 量 保持 简单 











通 津 才 是 行 之 有 效 的 方案 。 


15.20 从 C 中 访问 可 迭 代 对 象 
15.20.1 问题 

我 们 想 编 写 C 扩 展 代 码 ， 用 来 访问 任意 的 
Python 可 和 迭代 对 象 ， 比 如 列表 、 元 组 、 文 件 或 者 生 
15.20.2 解决 方案 


下 和 面 这 个 简单 的 C 扩 展 函 数 展 示 了 如 何 去 访 问 
一 个 可 迭代 对 象 中 的 元 素 : 











static 


PyObject *py_consume_iterable(PyObject *self, PyObject *args) { 
PyObject *obj; 
PyObject *iter; 
PyObject *item; 
if 
(!PyArg_ParseTuple(args, "0", &obj)) { 
return 
NULL; 
} 


if 


((iter = PyObject_GetIter(obj)) == NULL) { 
return 


NULL; 
while 
((item = PyIter_Next(iter)) != NULL) { 


/* Use item */ 


Py_DECREF (item); 


Py_DECREF (iter); 
return 


Py_BuildValue(""); 
} 





15.20.33 ”讨论 


本 节 给 出 的 代码 概念 上 可 以 上 映射 为 Python 中 类 
似 的 代码 。PyObject_GetIterO 调 用 和 Python 中 的 
iter(O 一 样 ， 都 是 用 来 获取 一 个 迭代 器 。 
Pylter_Next() esi žr Hie as EW next yA, IRIS 
代 器 中 的 下 一 个 元 素 ， 如 果 没 有 更 多 元 素 可 返回 ， 
则 返回 NULL。 请 确保 上 自己 对 内 存 管理 多 加 小 心 














一 一 获取 友 代 器 元 系 以 及 进 代 器 对 象 本 身 都 需要 调 
用 Py_DECREF() 来 避免 内 存 泄露 。 





15.21 HRA EHR 
15.21.1 问题 

Python 解释 器 由 于 段 错误 、 总 线 错 误 、 非 法 访 
问 或 者 其 他 的 致命 错误 而 发 生 朋 温 。 我 们 布 望 有 一 
个 Python traceback 能 够 告诉 我 们 出 现 错 误 时 ， 程 序 
运行 到 了 哪 一 步 。 
15.21.2 解决 方案 


faulthandler 模 块 可 帮 我 们 解决 这 个 问题 。 在 程 
序 中 包含 如 下 代码 : 


import faulthandler 


faulthandler.enable() 





此 外 ， 也 可 以 在 运行 Python 时 带 上 选项 - 
Xfaulthandler: 


bash % python3 -Xfaulthandler program.py 


最 后 但 同样 重要 的 是 ， 我 们 可 以 设 定 环境 变量 
PYTHONFAULTHANDLER。 


开局 faulthandler 功 能 后 ，C 扩 展 模 块 中 出 现 的 
致命 错误 将 在 Python 的 traceback 中 打印 出 来 。 示 例 
如 下 : 





Fatal Python error: Segmentation fault 


Current thread 0x00007fff71106cc0: 
File "example.py", line 6 in 


foo 
File "example.py", line 10 in 


bar 
File "example.py", line 14 in 


spam 
File "example.py", line 19 in 


<module> 
Segmentation fault 





还 是 没有 告诉 我 们 错误 究竟 出 现在 C 代 
地 方 ， 但 至 少 能 够 告诉 我 们 错误 是 如 何 


Z 尊 

me 
DS bf 
= cA 


传 到 Python 中 来 的 。 
15.21.3 ”讨论 


当 出 现 错 误 时 ，faulthandler 模 块 会 告诉 我 们 
Python 代码 的 调用 栈 回 溯 。 最 起 码 ， 这 会 告诉 我 们 
调用 的 最 顶层 的 扩展 函数 是 什么 。 再 结合 pdb 或 者 
其 他 的 Python 调试 器 ， 束 能 追踪 调查 导致 出 现 这 个 
错误 的 Python 代码 执行 流程 。 


faulthandler 模 块 无 法 告诉 我 们 任何 来 自 于 C 代 
人 码 中 的 错误 。 正 因为 如 此 ， 我 们 需要 使 用 一 个 传统 
的 C 调 试 器 ， 比 如 说 gdb。 但 是 ， 从 faulthandler 的 栈 
人 


























应 该 要 指出 的 是 ， 某 些 在 C 中 出 现 的 特定 类 型 
的 错误 可 能 不 太 容易 得 到 恢复 。 比 如 ， 如 果 某 个 C 
扩展 模块 破坏 了 栈 或 者 程序 的 堆 ， 这 会 使 得 
faulthandler 模 块 无 法 正常 工作 ， 所 以 此 时 得 不 到 任 
何 有 用 的 输出 (除了 程序 表演 之 外 ) 。 显 然 ， 每 个 
人 过 到 的 情况 会 有 所 不 同 。 


附录 A ”和 补充 阅读 


现在 有 大 量 的 图 书 和 在 线 资源 可 供 我 们 学 习 和 
实践 Python 编程 。 但 是 ， 如 果 和 本 书 一 样 ， 你 关注 
的 重点 是 如 何 使 用 Python 3， 那 么 要 找到 一 些 可 靠 
的 资源 则 有 些 困 难 。 因 为 市 面 上 大 量 的 图 书 都 是 为 
早期 的 Python 版 本 而 编写 的 。 


在 这 份 附 录 中 ， 我 们 提供 了 一 些 材料 的 链接 ， 
它们 对 于 学 习 Python 3 编程 以 及 理解 本 书 中 的 内 容 
会 特别 有 用 。 这 绝 不 是 一 份 详 尽 无 遗 的 资源 列表 ， 
所 以 你 绝对 应 该 查 查 看 这 些 资 源 是 否 有 了 新 的 名 称 
或 者 发 布 了 更 新 的 版 本 。 
































A.1 在 线 资源 
http://docs.python.org 


如 果 你 需要 深入 了 解 语 言 的 细节 以 及 探 拖 各 个 
模块 ， 那 么 不 必 多 说 ，Python 自 带 的 在 线 文档 绝对 
是 极 佳 的 资源 。 只 是 在 查阅 的 时 候 需 要 确保 你 看 的 
是 Python 3 的 文档 ， 不 是 之 前 的 老 版 本 。 








http:/www.python.org/dev/peps 


如 采 想 理解 为 Python 语言 添加 新 特性 的 动机 以 
及 一 些微 妙 的 实现 细节 ， 那 么 PEPs (Python 
Enhancement Proposals) 绝对 是 珍贵 的 参考 资源 。 
尤其 是 对 于 一 些 更 加 蜗 级 的 语言 特性 更 是 如 此 。 在 
写作 本 书 时 ， 我 们 发 现 PEP 往 往 比 官方 文档 还 要 
有 ” 帮助 。 





http://pyvideo.org 


这 里 有 大 量 的 视频 演讲 以 及 教程 ， 系 材 都 是 取 
自 最 近 一 次 的 PyCon 大 会 、 用 户 组 会 议 等 。 对 于 学 
习 现 代 Python 开 发 来 说 是 非常 优秀 的 资源 。 在 许多 
视频 中 都 会 有 Python 的 核心 开发 者 现 丑 说 法 ， 讲 解 
将 会 添加 到 Python 3 中 的 新 特性 。 














http://code.activestate.com/recipes/langs/python 


{E—BRIY TBI LAS, 7e ActiveState f/Pythonhix 
块 上 可 找到 数 以 生计 的 针对 特定 编程 问题 的 解决 方 
案 。 在 写作 本 书 时 ， 已 经 包含 有 大 约 300 条 特定 于 
Python 3 的 秘籍 。 你 会 发 现 其 中 的 许多 秘籍 要 么 对 
本 书 中 已 经 涵 症 的 主题 进行 了 扩展 ， 要 么 缩小 苑 
围 ， 专 注 于 更 加 有 具体 的 任务 。 因 此 ， 它 是 学 习 
Python 3 时 的 好 伴侣 。 

















http://stackoverflow.com/questions/tagged/pyth 


Stack Overflow 上 目前 有 超过 175000 个 问题 被 
标记 为 与 Python 相关 《而 这 其 中 又 有 大 约 5000 个 问 
题 是 特定 于 Python 3 的 ) 。 尽 管 每 个 问题 与 回答 的 


质量 有 所 区 列 ， 但 仍然 可 以 找到 许多 优秀 的 系 材 。 





A.2 ”学习 Python 的 网 书 


下 面 这 些 图 书 提供 了 对 Python 编 程 的 入 门 介 
绍 ， 且 重点 放 在 了 Python 3 上 。 





° Learning Python ， 第 四 版 ， 作 者 Mark 
Lutz, O’Reilly&AssociatesiH hx (2009) 。 


° The Quick Python Book ， 第 二 版 ， 作 者 
Vernon Ceder，Manning 出 版 (2010) 。 


° Python Programming for the Absolute 
Beginner ， 第 三 版 ， 作者 Michael Dawson, 
Course Technology PTR 出 版 (2010) 。 


° Beginning Python: From Novice to 
Professional ， 第 二 版 ， 作 者 Magnus Lie 
Hetland, Apress 出 版 (2008) 。 


° Programming in Python 3 ， 第 二 版 ， 作 者 
Mark Summerfield, Addison-Wesley th fix 
(2010) 。 


A3 HAAG 


PES Aiea SARA RAN, EA 
也 包括 了 Python 3 方面 的 主题 。 





° Programming Python ， 第 四 版 ， 作 者 Mark 
Lutz, O’Reilly & Associates 出 版 (2010) 。 


° Python Essential Reference ， 第 四 版 ， 作 者 
David Beazley，Addison-Wesley 出 版 “2009) 。 


Core Python Applications Programming ， 第 
三 版 ， 作 者 Wesley Chun, Prentice Hall 出 版 
(2012) 。 


The Python Standard Library by Example ， 
作者 Doug Hellmann, Addison-Wesley! hX 
(2011) . 


° Python 3 Object Oriented Programming ， 作 
者 Dusty Phillips, Packt Publishing HE hX 
(2010) 。 


Porting to Python 3 ， 作 者 Lennart 
Regebro, CreateSpace 出 版 (2011) , http: 


//python3porting.com. 


封面 说 明 


本 面 封面 上 的 动物 是 一 只 跳 鼠 〈 跳 免 ) ， 也 被 
RIR. KRR EE R R E A H k 
锡 科 中 唯一 的 成 员 。 它 们 不 是 有 袋 类 动物 ， 但 隐约 
ALGIERS, Aa eV) ATH, SRA IN a 
腿 ， 适 合 于 跳跃 。 除 此 之 外 还 有 一 根 长 长 的 、 强 壮 
有 力 且 毛发 浓密 《但 不 容易 抓 住 ) WEE, ARE 
握 平 衡 以 及 坐 下 来 的 时 候 作为 支撑 物 。 它 们 能 长 到 
14 一 18 英 寸 ， 尾 巴 几 乎 和 身体 一 样 长 ， 体 重大 约 可 
达 8 磅 。 跳 免 有 着 油腻 且 富 有 光泽 的 褐色 或 金色 表 
皮 ， 有 柔软 的 皮毛 ， 它 的 腹部 是 日 色 的 。 它 们 的 头 部 
有 着 和 和 刁 体 不 成 比例 的 大 小 ， 耳 灯 则 很 长 〈( 耳 杀 底 
部 有 一 块 可 翻动 的 皮肤 ， 这 样 当 它 们 在 打 洞 时 可 以 
避免 让 沙子 进入 耳 打 里 ) ， 眼 睛 是 深 标 色 的 。 


跳 免 全 年 都 可 以 交配 ， 孕 期 在 78 一 82 天 。 雌 性 
跳 免 一 般 每 帘 只 会 产 一 只 小 跳 锡 《小 跳 免 会 一 直 采 
在 它 的 妈妈 身边 ， 直 到 大 约 7 周 大 为 止 ) ， 但 每 年 
会 有 3 个 或 4 个 帘 。 刚 生 下 的 小 跳 兔 是 有 牙齿 的 ， 而 
HEAT, HEALY, MEREN FÉK. 


跳 多 是 陆 生 生物 ， 非 常 适应 于 挖掘 地 洞 。 它 们 
白天 喜欢 下 在 目 己 构筑 的 洞穴 和 地 道 所 交织 成 的 网 
络 中 。 跳 免 是 夜间 活动 生物 ， 主 要 食 草 ， 可 以 吃 鳝 





























ZEA R AA, BEKEER. SENER 
Ih} = oN UJ, HRE RK FARRER 
FR, EAER FEMS RERA. BA AY BE EB Ob 
LE SAS A HEE, MEME ANSE -TARK 
ERER, TE ab ze HS Be DOT Fl BE 
免 在 圈养 下 可 以 存活 15 年 。 可 以 在 扎 伊 尔 、 肯 尼 亚 
以 及 击 非 的 干燥 沙漠 或 者 半 干 旱地 区 见 到 路 免 的 号 
影 ， 它 们 也 是 南非 最 党 喜爱 的 重要 食物 来 源 。 














欢迎 来 到 寞 步 社区 ! 


异步 社区 的 来 历 


异步 社区 (www.epubit.com.cn ) 是 人 民 邮 电 出 版 
社 旗下 IT 专 业 图 书 旗舰 社区 ， 于 2015 年 8 月 上 线 运 


异步 社区 依托 于 人 民 邮 电 出 版 社 20 余 年 的 IT 专 
业 优 质 出 版 资源 和 编辑 策划 团队 ， 打 造 传统 出 版 与 
电子 出 版 和 自 出 版 结合 、 纸 质 书 与 电子 书 结合 、 传 
统 印刷 与 POD 按 需 印 刷 结合 的 出 版 平台 ， 近 供 了 最 新 
技术 资讯 ， 为 作者 和 读者 打造 交流 互动 的 平台 。 











CCIE 路 举 和 交接 认证 稚 数 奖 科学 实战 手册 ithe : 代码 之 外 的 生 Python ZB FSE 
试 指南 ( SER) (第 1 ( R+Python ) 存 指 商 
卷 ) 





Python PARERE ”机 器 学 习 项 目 开 发 实战 HBRPythonSBA] 像 计 算 机 科学 京 一 样 畦 
= 与 实战 ( 第 2 版 ) 考 Python (第 2 版 ) 





AERE 


FSR BARS HAMAR ! 


PETES RETESA Res Hee ek 
IT 专业 图 书 齐 航 社 区 ,于 2015 年 8 月 上 线 运 
营 ， 界 步 社区 依托 于 人 民 闻 电 出 版 社 20% SHIT 


ame iWeb 峰 会 北京 站 即将 开局， 为 HTML5 精 


每 一 次 拍 去 高 呼 嫩 里 行业 的 影响 ， 每 一 天 无 数 人 
苞 殖 业 业 的 勤 调 ，2016 挫 起 ! 未 吧 ，8 月 27 日 ， 
HTML5 妖 会 北京 站 ,我 在 这 里 ,等 你 末 , A 
HTMLSNER ! ... 


WE 6( 1 收藏 评论 
每 周 半 价 宅 子 书 + 更 全 


—- 
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(28) Richard Blum #4838, Christine 
Bresnahan 布 柔 斯 纳 罕 (作者 ) IFS 
马 立 新 (SE) 





AX BABA ITA ? 
购买 图 书 


我 们 出 版 的 图 书 涵盖 主流 IT 技 术 ， 在 编程 语 
言 、Web 技 术 、 数 据 科 学 等 领域 有 众多 经 典 畅 销 图 
书 。 社 区 现 已 上 线 图 书 1000 余 种 ， 电 子 书 400 多 
种 ， 部 分 新 书 实现 纸 书 、 电 子 书 同步 出 版 。 我 们 还 
会 定期 发 布 新 书 书 讯 。 


FRAI 


社区 内 提供 随 书 附 赠 的 资源 ， 如 书 中 的 案例 或 
程序 源 代码 。 


为 外 ， 社 区 还 提供 了 大 量 的 免费 电子 书 ， 只 要 
注册 成 为 社区 用 户 融 可 以 免费 下 载 。 


与 作 详 者 互动 


很 多 图 书 的 作 译 者 已 经 入 驻 社区 ， 您 可 以 关注 
他 们 ， 咨 询 技术 问题 ， 可 以 阅读 不 断 更 新 的 技术 文 
草 ， 听 作 诺 者 和 编辑 畅 聊 好 书 育 后 有 趣 的 故事 ;还 
可 以 参与 社区 的 作者 访谈 栏目 ， 疝 您 关注 的 作者 所 
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灵活 优惠 的 购书 


您 可 以 方便 地 下 单 购买 纸 质 图 书 或 电子 图 书 ， 
纸 质 图 书 直 接 从 人 民 邮 电 出 版 社 书库 发 贷 ， 电 子 书 
提供 多 种 阅读 格式 。 

对 于 重 人 磅 新 书 ， 社 区 提供 预 售 和 新 书 首发 服 
务 ， 用 户 可 以 第 一 时 间 买 到 心仪 的 新 书 。 

用 户 帐 户 中 的 积分 可 以 用 于 购书 优惠 。100 积 


积分 数值， 即 可 扣 减 相应 金额 。 


特别 优惠 

购买 本 电子 书 的 读者 专 享 异步 社区 优惠 券 。 使 用 方法 : 注册 成 为 
社区 用 户 ， 在 下 单 购书 时 输入 “57AWG ”， 然 后 点 击 “ 使 用 优惠 码 ”， 即 
可 至 受 电子 书 8 折 优惠 (本 优惠 券 只 可 使 用 一 次 ) 。 


纸 电 图 书 组 合 购买 


社区 独家 提供 纸 质 图 书 和 电子 书 组 合 购 屎 方 
却 ， 价 格 优惠 ， 一 次 购买 ， 多 种 阅读 选择 。 
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软 技能 : 代码 之 外 的 生存 指南 

[Š] Z. FBS (John Z Sonmez ) (作者 ) 王 小 刚 ( 译 者 ) hiss Sew) 
G 6 # | 9.0K 
JF EPF Wz 阅读 


这 星 一 本 真正 从 “人 ”【( 而 非 按 术 也 非 管 理 ) 的 角度 关注 软件 开发 人 员 已 身 发 展 的 蔬 。 书 中 论述 的 
内 容 茎 涉及 生活 习 悍 ,又 包括 导 维 方式 ,总 显 技术 中 “人 ”的 因素 ， 全面 洪 解 软 件 行业 从 业 人 员 所 
需 知 道 的 所 有 “ 软 技能 ”。 

本 书 暴 焦 于 软件 开发 人 员 生 活 的 方方面面 , 从 更 秘 画 试 的 流程 到 精 耕 绍 作出 一 份 杀手 级 简历 , Me! 
建 大 过 欢迎 的 博客 到 打 和 址 你 的 个 人 品牌 ， 从 提高 号 己 工 作 效 至 到 与 如 何 与 “ 疮 延 首 ”做 斗争 ， 基 至 
包括 如 何 投资 不 动产 ， 如何 关注 富 己 的 健康 ， 

本 书 共 分 为 职业 简 、 生 我 营销 简 、 学 习 简 、 生 产 力 简 、 理 财 简 、 健 身 简 、 精 神 簿 等 七 简 ， 概括 了 软 


® 纸 质 版 ” 闻 S9.69 着 46.02(78 折 ) 
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© 电子 版 + 纸 质 版 ¥59.00 


社区 里 还 可 以 做 什么 ? 
提交 勘误 

您 可 以 在 图 书页 面 下 方 提 交 勘 误 ， 每 条 勘误 被 
确认 后 可 以 获得 100 积 分 。 热 心 勘 误 的 读者 还 有 机 
会 参与 书稿 的 审 校 和 翻译 工作 。 
ade 

社区 提供 基于 Markdown 的 写作 环境 ， 喜 欢 写 
作 的 您 可 以 在 此 一 试 丑 手 ， 在 社区 里 分 享 您 的 技术 
心得 和 读书 体会 ， 更 可 以 体验 上 日 出 版 的 乐趣 ， 轻 松 
实现 出 版 的 梦想 。 


如 果 成 为 社区 认证 作 译 者 ， 还 可 以 圣 受 寞 步 社 
区 提供 的 作者 专 圣 特色 服务 。 


会 议 活动 早 知 道 


SAY CASITA Mot, ADL oe 
费 获 赠 大 会 门票 。 


























加 入 异步 


扫描 任意 二 维 码 都 能 找到 我 们 : 








微 信服 务 号 











QQ 和 群 : 368449889 


社区 网 址 : www.epubit.com.cn 


官方 微 信 : 异步 社区 


官方 微 博 : @ 人 邮 和 异步 社区 ，@ 人 民 邮 电 出 版 
社 -信息 技 术 分 社 
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